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1.1 绪 论 


什么 是 统计 ? 统计 就 是 收集 及 分 析 数 据 , 并 由 此 作出 挖 断 的 科学 . 统计 要 从 数据 出 发 建立 
模型 ,这 叫 归 纳 (induction); 建 立 模 型 之 后 ,要 用 它 来 进行 挫 断 ,这 叫 演绎 (dcduction). 和 以 演 
绎 为 主 并 基于 公理 系统 的 数学 不 一 样 ,统计 是 基于 数据 的 ,其 数学 基础 昆 捧 率 论 . 比 于 现实 世 
鼻 的 多 样 性 ,在 统计 中 不 存在 完美 的 模型 ,任何 一 个 上 数据 归纳 出来 的 模型 往往 要 再 回 到 实际 
中 对 其 检验 ,并 弄 新 的 数据 对 之 进行 修正 , 这 种 反复 的 认识 及 得法 识 的 思想 方法 是 统计 的 -个 
突出 特点 .数学 是 一 个 可 以 独立 存在 的 逻辑 体系 . 融 对 于 统计 来 说 ,离开 了 字 岂 ,就 没有 存在 的 
必要 ， 

一 般 经 典 的 数理 统计 教科 韦 的 主要 部 分 巧 由 估计 和 检验 丙 大 部 分 组 成 . 在 于 里 ,往往 假设 
产生 数据 的 总 体 分 布 的 形式 是 已 知 的 . 所 不 能 确定 的 是 数 曙 有限 的 一 些 参 数值 , 帅 所 要 做 的 就 
是 对 这 些 参数 进行 雁 验 或 估计 . 但是 实践 中 ,在 没有 足 能 证 据 时 ,去 假设 一 个 总 体 有 某 种 分 布 
形式 ,并 进行 参数 估计 或 检验 是 不 负责 的 ,结果 是 不 可 车 的 ,甚至 是 灾难 竺 的 . 

非 参 数 统计 就 是 在 对 总 体 分 布 形式 不 了 解 时 进行 推断 的 统 汗 方法. 这 里 对 十 总 体 分 布 到 
作 或 只 作 一 点 诸如 对 称 性 之 类 的 简单 假设 . 虽然 不 知道 分 布 的 形式 ,我 们 总 可 以 扎 数 据 检 大 小 
排队 而 使 每 个 数据 都 有 自己 的 “地 位 ? ,我们 称 之 为 伟 trank), 次 小 为 的 样本 产生 了 个 其 . 
这 样 , 问 题 就 简化 为 对 这 些 秩 的 研究 了 , 幸运 的 是 ,这 些 牧 及 由 其 产生 的 … 些 统计 量 的 竹 质 和 
分 布 是 可 以 得 到 的 ,并 得 与 原来 的 总 体 分 布 元 关 (distribution-free), 除了 与 秩 有 有 美的 方 潜 之 
外 ,还 有 其 它 - - 些 间 参数 方法 . 非 参 数 方法 有 相当 好 的 稳 急 生 ( 后 曾 要 介绍 ) ,计算 简单 ,处 硬 问 
题 广泛 ,并 且 在 多 数 分 布 未 知 的 情况 下 比 参数 方法 更 有 效 .但 也 应 第 出 :总 然 参数 疗法 有 癌 限 
性 ,但 在 总 体 分 布 已 知 时 , 它 比 非 参 数 方法 利用 更 多 的 样本 中 的 信息 ,因而 就 更 有 效 . 

本 章 介绍 一 些 为 学 习 后 面 章节 所 需要 的 基本 的 统计 和 概率 知识 . 如 已 然 悉 ,可 咯 过 不 咎 . 
第 四 节 之 后 的 部 分 最 好 在 月 到 时 再 看 。 : 些 知 念 ; 如 完全 估计 同和 相 容 估计 二 等 对 初学 者 或 非 
数理 统计 方向 的 读者 也 可 了 略 去 不 看 ， 


1.2 估计 和 检验 


1.2.1 点 估计 和 区 全 估计 
假 足 我 们 撞 一 核 许 出 二 次 , 矢 到 次 正 所 ,需要 估计 出 型 正面 的 概率 pp. 用 次 观 , 我 们 可 月 


1 
L 


> 来 估计 p. 当然 ,你 可 以 用 任何 可 以 想象 的 其 它 方法 来 估计 p, 这 样 就 产生 了 一 个 评价 估计 


好 未 的 标准 问题 所 谓 “ 好 ”和 [“ 坏 ”, 其 实 只 是 相对 于 你 的 机 求 而 言 . 在 数理 统计 课程 中 已 引进 
了 各 种 不 同 的 标准 . 本 节 仅 就 本 书 中 要 用 到 的 标准 作 一 回顾 . 
要 估计 上 述 的 概率 , 绝 不 能 只 掷 一 次 硬币 . 我 们 希望 在 大 量 试 验 中 ， 估计 基 的 平均 值 尽 
可 能 地 接近 所 要 估计 的 真 值 . 这 就 产生 了 无 偏 估计 量 (unbiased estimator) 藤 概 念 . 假设 有 样 
本 局 ,9:X 它们 的 总 体 分 布 ( 国 数 ) 为 了 (ic,0) ,而 6 为 要 合计 的 参数 , 如 果 我 们 选 定 的 对 
9 的 估计 量 是 CX,,… ,六 ,) (注意 , 它 是 样本 数据 又 ，… ,和 ,的 一 个 函数 或 统计 量 , 与 参数 8 无 
关 ) ,在 满足 
ET(lRI ,X= 0 
时 ,我 们 称 全 二 全 (X.,… ,Xs) 为 9 的 一 个 无 册 信 计量 ， 这 蛙 Eo(*) 表示 基于 了 (zx,0) 的 期 户 . 
| 我 们 可 以 把 扼 币 看 成 是 个 独立 的 Bernoulli 试验 , 即 $ 服从 二 项 分 布 ;S 一 5(r,p). 所 
以 有 


也 就 是 说 , 刚才 选 的 对 之 的 估计 3 是 无 偏 的 . 注意 ,无 偏 居 计 可 能 不 唯一 ,当然 和 任何 其 它 种 
类 的 佑 计 一 栏 , 它 有 它 的 缺点 , 如 果 有 两 个 统计 量 工 :和 代为 参数 9 的 无 偏 估计 ,我 们 自然 要 选 
择 其 方差 小 的 ,因为 方差 越 小 ,统计 量 的 可 能 值 的 分 散 程 度 越 小 . 一 般 来 说 ,我 们 希望 均 方 误差 
E(T 一 9)* 越 小 越 好 . 如 果 在 所 有 无 偏 估计 中 ,个 计 基 人 使 均 方 误差 (对 无 偏 估计 ,这 就 是 方 
差 ) 最 小 , 则 称 了 为 -- 致 最 小 方差 无 偏 估计 (uniformly minimum variance unbiased 


在 用 -个 统计 量 T(K,…, 筷 ) 估计 参数 0 时, 我们 当然 宴 求 这 个 统计 里 要 尽量 用 到 样本 
中 的 全 部 信息 ,在 统计 上 , 称 这 种 统计 量 为 充分 的 . 确切 地 说 ,如 果 在 给 定 TC(X),*…,X,) 二 
下 ,CX,,…，, 太 .) 的 条 件 分 布 与 无关, 则 称 工 (XX ，… ,XX.) 是 分 布 族 {F(z, 扑 :0 € 日 ) 的 充分 统 
计 基 . 

虐 然 UMYUE 是 参数 0 的 一 个 好 的 估计 ,那么 它 是 不 是 唯一 的 ?为 了 解决 这 一 区 题 , 义 引 
进 了 统计 上 另 一 个 重 此 的 概念 一 一 完全 统计 量 , 确切 地 说 ,对 于 分 布 族 IF(z,00:0E 6), 如 任 
给 满足 

Esg(T)=0, YOEQ 

的 函数 g(") ,都 有 Prg(T) = 0) = 1, 则 称 统计 晤 了 C(X,，…,X,) 的 导出 分 有 族 大 完全 的 . 

在 Bernoulli 试验 中 ,因为 


， i 
了 二 1 “一 
limy ar| | limE| sp 0 


则 对 任意 的 :> 0 有 


>el=0 
上 


直观 上 , 随 着 试验 次 数 的 增加 , 信 计 信之 与 实际 的 参数 值 p 应 更 接近 . 一 般 来 说 , 媳 对 任意 < 


>> 0, 参 数 0 的 佑 计量 7(X,,…,X,) 满足 
limP(COIT OX) ,KX ) 如 | 全 E) = 人 0 


则 称 了 (X ，…:X) 为 @ 的 相 容 (或 相合 ) 和 舍 让 其 (eonsistent sstimator)， 注意 , 相 容 性 叱 一 个 大 
样本 性 质 , 人 在 固定 的 小 样 不 情况 ,应 沈 导 对待. 有 时 ,一 个 相 容 统 计量 会 没有 任何 实际 意义 . 
恕 果 取 了 一 了 (Xp…Xo) 作为 了 的 一 个 估计 ,我 们 能 用 它 来 佑 计 乡 的 一 个 可 能 的 范围 或 
其 可 能 的 上 下 界 , 一 个 常用 的 范围 的 形式 为 (Xi ，…, 民 ) 土 a. 当然 ,因为 工 是 个 随机 变 基 ,所 
以 我 们 只 能 说 由 它 导 上 出 的 区 间 ( 党 信 区 间 ) 以 某 机 率 ( 尝 信 度 ) 获 盖 参数 9. 一 般 地 说 ,如 果 ， 
_T,,T,] 是 由 -… 对 统计 量 T,,7,C7 < 7,) 所 组 成 的 随机 区 间 ,如 对 所 有 的 ?有 
FIERT)=1—0 
则 称 CT,,T,_ 为 5 的 党 信和 度 为 1 一 < 的 明 信 区 问 (confidenee interval). 这 里 Pif.) 表示 当 8 为 
真 实 参 数值 时 的 概率 . 换言之 ,我 们 以 100(1 一 o) 名 的 慨 率 或 置信 和 度 (confidence Ievel) 保证 
[ZT,,T,] 覆盖 


1.2.2 假设 检验 

如 朵 在 上 而 探 硬币 的 试验 中 ,我 们 怀疑 硬 币 的 均匀 性 , 即 怀疑 是 否 户 一 于. 我 们 就 要 对 原 
供 设 (null hypothesis) Hesp 一 讨 进 行 愉 验 . 备 择 假设 (aliernative hypothesis) 可 为 户 关 上 ， 
< 吝 肥 沁 计 三 者 之 一 ,如 困 备 择 假 设 用 思 关 十, 则 称 检验 是 双边 的 . 如 备 择 假设 用 另外 两 


个 之 一, 则 称 检验 是 单 边 的 ， 

| 对 原 假 设 进行 检验 的 结果 只 能 是 下 列 两 个 决策 之 一 : 1, 拒绝 原 假设 万 ;2, 不 能 拒绝 原 候 
没 鼠 * 有 些 作者 用 "接受 备 择 假 设 ” 详 代 普 第 2 个 决策 ,这 是 不 对 的 , 因为 在 检验 中 ,我 们 一 直 
亿 原 假设 条 件 下 进行 档 率 运算 ,在 原 假 没 本 对 时 ,没有 任何 理由 来 * 接 爱 ” 备 择 假 设 . 我 们 尊重 
他 人 基 下 历史 原 国 的 选 词 ,作为 了 科学 的 准确 性 及 避免 逻辑 混乱 ,我们 不 主张 用 “接受 备 择 候 
设 ” 的 说 法 ， 

上 而 的 原 假 设 只 包含 一 个 点 , 称 为 简单 候 设 (simple hyporhesis)。- 般 地 ,假定 @ 为 所 有 
可 能 的 参数 值 如 的 集合 . 让 假 设 为 5E @, 备 择 假设 为 6 < 日. 而 日 二 B,G. 日 及 @@ 门 @ 一 
节 , 当日 ,包含 多 于 - -个 点 时 , 称 检验 为 复合 假设 (composite hypothesis). 注意 ,在 简单 拒 没 下 ， 
分 布 被 唯 -确定 , 而 在 赣 人 台 假设 情况 则 不 从 然 . 

在 检验 中 , 我 们 需要 选择 一 个 检验 统计 其 (test statistic) :人 兰 了 0X ,和 ). 国 为 检验 统 
计量 完全 确定 了 检验 的 性 质 , 所 以 ,检验 统计 量 也 称 为 检验 . 在 原 假设 成 立时 , 它 的 可 能 值 只 以 
很 小 的 概率 届 于 某 个 范围 ,比如 集合 WW. 如 果 各 件 (T E 殉 ) 的 确 发 生 了 , 它 在 原 假 设 下 是 一 个 
人 小节 率 事 和 牛 . 换 句 话说 , 原 假设 有 问题 ,应 该 拒绝 , 这 时 ,WW 称 为 拒绝 域 (rejection region 或 
critical region), 刀 果 事件 (7 千 W) 发 生 了 ，, 则 我 们 没有 理 贞 拒绝 原 假设 . 当 了 多 是 诸如 
(55 或 [coc) 一 类 的 区 间 时 ,了 E 玉 等 价 于 荆 挝 c 或 个 宇 c. 这 时 丈 c 为 临界 值 (critical 
value). 在 决策 中 ,我 们 可 能 会 犯 两 种 错误 , - -种 是 原 假 淡 对 ,我 们 拒绝 了 它 . 这 是 所 请 的 第 7 类 
错误 ;号 一 种 是 原 假 设 不 对 ,但 没 让 拒绝, 即 所 谓 的 第 I 类 错误 . 犯 这 两 类 错误 的 概率 分 别 为 
PT E WIIE 0 和 PT WIIE 98.), 人 们 自然 会 希望 这 两 个 几率 越 小 越 好 ,位 在 样 木 给 
定之 后 不 可 能 两全其美 , 通常 是 先 限 制 第 7 类 错误 概率 不 大 于 预先 给 定 的 概率 0 过 a 之 1, 它 被 
称 为 显著 性 水 平 (level of significatce) 或 检验 水 平 (sizc of test). 即 对 任意 的 2 E 9,， 

PT E W)Ca, 


在 此 条 件 下 ,选择 合适 的 检验 统计 其 使 犯 第 羡 类 错误 的 概率 尺 可 能 地 小 ,即使 Pel 了 所 WI0 
€ 8B,) 尽 可 能 地 大 .我们 称 8 的 函数 8(9) 三 PT E W) 为 势 ( 函 数 ) (power fiunction), 最 然 当 
8 七, 时 ,8(9) 是 儿 第 I 类 错误 的 概率 ， 而 当 8€ 日 时 ,1 一 8(9) 是 犯 第 开业 错误 的 概率 . 上 
面 的 限制 第 了 类 错误 概率 条 件 可 写成 

50 a 
注意 , 势 函数 实际 上 也 依赖 于 检验 的 选择 , 我 们 可 记 它 为 8(8,7T'). 如 果 一 个 水 六 4 的 检验 
7 " 使 得 对 于 所 有 的 上 必 平 的 检验 工 及 所 有 的 8€ 信 有 


BT ) 2 BV,T) 


则 称 检验 TT* 是 一 臻 最 优势 的 (uniformly most Powerful 一 一 UMP). 因 为 人 们 总 希望 在 水 平 w 
尽量 小 的 时 候 指 绝 原 假设 . 举例 说 ,如 果 我 们 可 以 在 = 0.01 拒绝 ,当然 也 可 以 在 a = 0.05 拒 
钨 ;但 总 是 选 小 的 & 以 证 明 我 们 拒绝 得 有 道理 . 因此 ,在 实践 及 各 种 讨 算 机 软件 中 ,大 们 并 不 栅 
先 指 定 水 平 的 值 ,而 是 很 方便 地 利用 由 数据 产生 的 下 面 定 义 的 疡 值 , 在 取得 了 闫 ,，… .XX, 的 观 
察 值 rzu 之 后 ,我 们 称 概率 
Pe(T (ze E WIO EE 8.) 

为 该 检验 的 思 什 (p-value) 或 观察 水 平 (observed size) 或 显著 概率 (significance probability)， 
对 十 任何 太 十 pp 值 的 水 平 ,人 们 可 以 拒绝 原 假设 ,但 不 能 在 任何 小 十 它 的 水 平 下 拒绝 不 假 设 . 
秆 是 使 人 们 可 以 拒绝 原 很 设 的 最 小 水 平 . 

例 1.1 息 设 在 := 10 次 掷 硬币 的 试验 中 , 共 出 现 正面 3 一 3 次 ,要 检验 该 硬币 是 否 均匀 ， 
令 8 为 出 现 正面 的 概率 , 原 假设 为 五 .9 = 0.5: 而 备 择 假 设 为 五 ,:9 < 0. 5. 思 值 为 


3 
PoslS EH) = 2 "DC, 一 0.1719 
站 一 候 


因此 , 对 于 所 有 小 于 0. 1719 的 水 平 ,我 们 不 能 拒绝 原 假 设 . 


1,2.3 稳健 性 及 稳健 统计 

我 们 知道 ,统计 就 是 要 使 所 建立 的 模型 和 其 所 反映 的 现实 志 寞 尽 可 能 地 一 笋 ,但 嘎 , 不 在 
在 完美 的 模型 ,也 不 存在 不 含 误差 的 数据 . 只 能 希望 我 们 的 方法 或 模型 对 于 有 危险 的 误差 不 于 
于 太 敏 感 . 这 就 是 稳健 件 的 概念 lrohustness). 稳健 概 仿 实际 上 是 外 对 统计 中 匆 很 设 过 分 埋 相 
化 而 产生 的 , 稳 刍 性 是 非 参数 统计 的 基本 特点 , 但 是 稳健 统计 是 介 于 非 参数 综 计 和 经 典 的 (大 
数 ) 统 计 之 间 的 一 些 理论 的 集合 , 它 是 近似 半 参 数 模型 的 统计 . 稳 刍 统计 的 昌 的 主要 有 以 下 儿 
条 ， 

1. 措 述 出 适合 十 大 多 数 数据 的 结构 ;2. 找 出 离 群 值 (outliers) ,如 果 需 要 的 话 , 改 变 我 们 已 
有 的 结构 :3, 在 不 平衡 的 数据 结构 中 (如 在 回归 分 析 中 ), 发 现 高 度 有 影响 的 数据 点 leverage 
points) ,并 给 出 警告 ;4. 对 假定 的 诸如 独立 性 等 的 相关 结构 进行 审查 并 改进 . 

实际 上 ,对 十 一 个 不 太 熟 悉 的 数据 结构 ,很 难说 清 哪 些 影响 点 是 真正 满足 我 们 要 找 的 模型 
还 是 纯 属 误差 的 产物 . 这 就 区 对 问题 的 背景 有 所 了 解 . 纯 数 学 式 的 转 维 方式 是 行 不 通 的 ， 

4 


下 面 给 出 “个 例 了 对 德 健 忻 进行 说 明 ， 

例 1.2 设 K(x) 为 一 闫 二 和 对 称 的 连续 分 布 了 数 .X,,…,X 是 服从 六 分 布 的 一 个 样本 ， 
我 们 来 比较 两 个 的 信 计 晶 , 一 个 是 梯 本 均 信 一 二 分, 另 一 个 是 样本 中 位 数 Xo, 定 义 为 

R'is)| ~ Xs:) 1 

顺序 统计 旦 的 中 间 值 , 即 当 为 偶数 时 它 取 二 入 一 一 [处 汪 ， 而 当 为 奇数 时 它 为 
Xi .这 里 顺序 统计 基于 二 … 之 Xs 是 按 自 小 到 大 次 序 重 新 排列 的 ，,… ,Xx 显然 如 果 
XX。 赵 于 无 穷 大 , 则 驶 也 赵 于 无 穷 . 这 说 明 页 对 个 别 数据 的 不 寻常 值 很 敏感. 而 则 不 因 
Xi 的 异常 变化 市 改变 ,到 Xe 是 的 一 个 稳健 信 计 . 我 们 还 可 看 出 ,间作 样本 中 位 数 具有 稳 
健 宗 , 但 样本 均值 包含 了 更 多 的 样本 所 具有 的 倍 息 , 因此 ,在 不 存在 异常 点 时 ,样本 均值 是 更 常 
用 的 . 


1.3 数据 初步 分 析 


在 合 到 一 个 新 的 数据 之 后 ,首先 要 有 对 该 数据 的 直观 了 解 . 本 节 介绍 一 些 简单 的 数据 分 
析 , 使 我 们 对 数据 的 特点 ,大 概 的 分 布 形 状 等 有 个 粗略 的 了 解 ,为 以 后 的 进一步 统计 推断 作 好 
准备 . 
假定 我 们 有 三 个 班 的 97 个 学 生 的 考试 成 绩 表 ( 表 1. 1). 


表 1.1 考试 成 绩 


三 班 

&82 45 89| 99 87. 72| 58 46 72 
82 7 72| 81 88 82| 84 74 48 
G6 89 93| §6 71 88| 116 9] 69 
78 87 73| 58 84 68| 53 65 109 
ll5 57 88! 86 70 8 9 69 69 


表 中 成 绩 是 按 学 咎 姓氏 笔画 排列 的 ,人 们 从 中 并 不 容易 一 眼看 出 该 数据 的 特征 , 下 面 将 对 它 进 
行 初步 的 分 析 ， 
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1.3.1 直方 图 

最 常用 的 一 个 表 规 数据 的 方法 是 直方 图 (histogram). 它 通 常 把 数据 的 值 域 分 成 若干 相等 
区 间 , 于 是 数据 就 按 驻 问 分 成 基干 组 ,等 组 作成 一 个 矩 世 , 其 高 和 沪 组 中 数据 的 多 少 成 比例 ,其 
底 为 所 属 区 问 , 这 些 算 形 就 是 直方 图 , 它 维 数 据 的 分 布 一 个 点 观 的 形 锭 .图 1. 1 就 是 表 1.1 的 
数据 的 直方 图 , 这 里 数据 被 分 成 10 个 区 河 ,并 形成 10 个 第 形 . 比如 分 数 40 一 4 有 5 个 人 ,相应 
地 形成 高 为 5( 至 多 区 .常数 ) , 宽 为 10 的 位 于 该 区 记 的 年 形 . 


20 30 40 SO RO 75 kD 90100110125 
图 1.1 表 1.1 数据 的 直方 图 


一 般 说 来 ， 对 于 观测 数据 关 ， ,六 ,选择 两 个 适当 的 常数 六 ,和 有 (> 0): 把 ( 5, 十 00) 
分 成 一 些小 区 间 A 一 [LXv + Cz 人 ]) 丰 ,入 十 12h) ,1t 二 0, 二 1， 宣 2,…，, 并 以 nn, 记 六 1 ， 信 ， 落 


了 


在 们 的 个 数 . 我 们 以 汪 .为 诬 , 半 为 高 做 一 拢 彤 . 对 ? 一 0， 士 1, 士 2,… 而 得 的 许多 乍 形 就 是 - 
个 直方 图 . 直方 图 的 形状 依赖 于 区 间 的 选择 .数据 的 特点 及 画图 者 的 观点 都 对 此 有 影响 ， 


1.3.2 茎 叶 图 


-个 荣 时 图 (stem-and-leaf display) 利 吉方 图 类 似 , 只 不 过 用 数据 代 巷 知 形 . 具体 地 说 ,把 
数据 按 除 了 最 后 一 位 数 之 外 的 前 面 数字 的 异同 来 分 组 :相同 的 分 为 一 纠 ( 或 若干 组 , 恢 具 体 数 
据 情 况 而 定 ). 每 一 组 数 占 - 行 :以 前 面 的 数学 作为 凉 行 的 标记 , 放 在 行头 ;并 把 这 些 数 按 由 小 
到 太 的 顺序 从 上 符 下 排 , 这 就 形成 了 一 个 “ 莹 ” 每 一 行 则 是 该 组 的 所 有 数据 的 最 后 一 宝 数 字 的 
排列 5 通常 技 由 小 到 大 的 顺序 从 堪 至 右 排 列 ) ,这 就 是 “叶子 ”一 丝 中 ,数据 越 多 “叶子 ” 越 长 ， 
这 既 直 观 ,又 显示 了 具体 数据 . 
我 们 把 表 1. 1 中 的 得 分 御 出 名 十 茎 叶 图 ; 图 1.2 是 三 班 成 绩 的 蔡 叶 图 (没有 按 太 小 排 * 叶 
了 了 ?7), 图 1.3 是 所 有 学 生 的 成 绩 的 莹 呈 图 (每 行 按 人 小 排列 ), 图 1.4 是 一 姓 和 三 班 成 绩 的 背 洁 
背 共 叶 图 (back to back stem and leaf display) , 它 使 这 两 个 班 的 成 线 共用 一 个 蔓 ,位 荫 个 班 的 
“叶子 ”分别 向 上 下 两 过 排列 , 从 该 网 可 看 出 两 个 班 成 绩 的 不 同 分 布 特点 .这 些 阅 的 莹 中 的 值 是 
6 . 


不 同 的 ,也 如 前 面 提 到 的 ,若干 行 可 共有 相同 的 茎 值 .图 1. 5 和 图 1, 6 就 是 对 一 个 班 30 个 学 生 


成 绩 的 岗 不 加 分 组 而 作成 的 两 个 荃 叶 图 ,其 中 一 个 茎 值 相应 于 若干 行 . 
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三 性 三 颖 的 共 叶 阁 


图 1.2 
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图 1.3 表 1,1 的 蔡 叶 图 
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分 五 组 的 玉 叶 图 


酸 刘 


直方 图 和 法 叶 图 包含 了 兢 量 的 磋 本 信息 ,但 没有 作 任 何 吉 工 或 简化 . 我 们 有 时 需要 用 少数 


风 个 统计 量 来 对 大 其 的 原始 数据 进行 得 括 . 下 面 引进 所 谓 的 忒 数 概括 (6ve-number sum- 
Iaries). 

有 了 组 数据 之 后 ,我 们 首先 感 兴趣 的 可 能 是 数据 的 “中 心 "通常 人 们 首先 想到 的 “中 心 ” 
的 度量 是 样本 均 信 . 样 木 沟 值 的 确 用 得 很 多 ,但 正如 前 页 所 说 , 桩 本 中 位 数 也 是 一 个 可 取 的 关 
于 数据 “中 心 "的 度量 , 它 具有 某 种 稳健 性 , 这 一 节 我 们 就 用 它 来 度量 数据 的 < 中心” 

我 们 引入 层 (depth) 的 概念 . 如 果 把 数据 按 大 小 次 序 排列 (假定 有 ， 个 数据 ), 则 最 外 面 的 
两 个 , 即 最 大 种 最 小 的 两 个 数 称 为 第 一 层 , 然 后 依次 往 旦 称 为 第 二 层 , 第 三 层 等 等 . 当 ”为 奇数 
时 ,最 后 一 层 (第 地 一 岩 ) 只 利 一 个 数 , 即 中 位 数 ;而 当 为 偶数 时 , 景 后 一 层 (第 层 ) 剩 两 个 
数 ,它们 的 平均 是 中 位 数 .我们 用 x 表示 中 位 数 ,其 层 数 用 dy) 表示 ， 

例 1.3 | 


有 8 个 数 : 46 48 58 72 74 84 91 116 
层 ， 1 2 3 4 4 3 2 1 


在 贡 叶 图 中 ,定义 莹 中 每 一 数 的 层 为 该 蔡 所 对 应 的 叶 中 数据 的 层 的 晤 大 值 . 中 位 数 所 在 
的 蕉 的 层 为 该 叶 所 具有 的 数据 数目 ,并 用 (*) 表示 . 
例 1.4 图 1.7 为 表 1,1 数据 的 莽 叶 图 ， 


层 蕉 | 叶 

1 2| 5 

2 3| 9 

7 4| 5 5 6 8 8 

13 5|3 3 7 7 8 8 

28 68)0 1 2 2 3 4 4 5 6 
46 A :es 
(27) 8|1 1 1 2 2 2 2 3 3 4 4 4 4 
24 9| 0 0 1 1 1 2 3 6 6 #6 
10 1606|3 4 4 4 8 9 9 

3 ll 3 5 6 


图 1.? 层 太 中 位 数 


其 该 图 亦 可 找到 中 位 数 , 因 中 位 数 的 层 数 为 dC) = 49, 而 图 中 荆 值 为 ?的 层 为 46, 所 以 ， 
茎 值 为 8 的 叶 中 第 三 小 的 数 为 中 位 数 (p = 81)， 

除了 中 位 数 之 外 ,我 们 还 对 数据 的 分 散人 程度 感 兴趣 . 这 里 我 们 不 考虑 样本 方 益 , 而 考虑 极 
大 值 . 极 小 值 、 上 河 分 位 数 (upper duantile)JQu 及 下 四 分 位 数 (lower quantile)Q;. 加 分 位 数 的 


层 定义 为 <KQ) 一 于 二 或 4(Q) = 于、 依 为 偶数 或 奇数 而 定 , 得 到 了 导数 也 就 有 了 上 下 
两 个 四 分 位 笋 . 从 例 1.3 的 数据 , 易 得 Q, = 53 和 Qu 一 87. 5. 中 位 数 \ 极 值 和 四 分 位 数 就 是 我 
们 所 请 的 五 数 概 括 . 数据 著 丰 Q 和 Q 之 间 的 概 闪 为 0. 5. 在 它们 之 外 太 远 的 数 则 有 可 能 为 异 
常 值 . 记 瑟 一 Qr 一 Qi, 人 们 认为 在 区 间 (Q&; 一 1.5 玉 ,Qe 十 1.5H) 之 外 的 数据 可 看 作 是 异常 
秆 ,如 表 1.1 中 的 25 中 为 一 例 . 


1.3.4 盒子 图 

卫 数 概括 并 不 直观 , 现 拒 这 二 个 获 画 在 一 个 图 上 : 在 驴 : 与 凶 : 之 问 画 一 矩形 盒子 ,在 极 大 
值 与 & 之 间 , 极 小 值 与 Q 之 闻 通 两 线段 , 首 在 中 从 数 处 甬 一 坚 线 就 成 了 我 们 药 合 于 图 
(box-plot), 图 1, 8 为 去 1. 1 数据 的 盒子 济 ， 
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图 1.83 家 14.1 中 数据 级 焦 工 图 


图 中 钴 形 描述 了 中 辣 的 50 色 的 数据 ; 左 活 的 水 平 线段 代表 了 上 下 25%% 的 数据 的 分 布 情 
沈 .图 1.8 显示 出 高 低 两 部 分 数据 (各 占 25 旬 的 数据 ) 并 不 对 称 . 数据 在 中 位 煞 81 附近 还 是 集 
中 的 (盒子 短 ). 

以 上 这 节 所 作 的 煞 据 分 析 虽 然 很 初等 ,但 是 简单 明了 , 硼 观 性 强 . 它 不 要 求 数据 符合 任何 
统计 模型 ,是 获得 数据 之 后 的 一 种 处 理 方法 . 


1.4 顺序 统计 革 的 基本 人 性质 


非 参 数 统 计 的 -大 特点 就 是 利用 样本 数据 的 太 小 关系 米 进 行 研究 .因此 ,对 在 第 一 节 已 涉 

芒 的 顺序 统计 基 (order statistics) 的 碘 究 构成 了 非 参 数 统 让 的 基础 , 设 
Xa; 和 .4 去 SR A 三 
为 伴 本 邢 ,…,X, 的 顺序 统计 基 . 和， 为 第 :个 顺序 统计 量 ;Xa 和 XX 分 别称 为 极 小 值 和 极 大 
值 ;Xw 一 Xe 称 为 极 差 , 在 第 一 节 中 ,我 们 已 用 顾 序 统计 量 来 表示 了 样本 中 位 数 , 实际 上 ,前 
面 所 讲 的 “五 数 ” 概括 中 的 五 数 都 是 p 分 位 数 (p-quantile) 的 特例 ,记分 位 数 定义 为 
Wis = Kp 十 {nn 十 1| p= 并 | (Xp — Rey) 
其 中 [z] 表示 不 大 十 x 的 最 大 整数 . 
节 介 绍 一 些 有 闫 顺序 统计 其 的 基本 知 庶 ， 

1.4. 1 顺序 统计 量 的 精确 分 布 

术 节 始终 考虑 独立 同 分 布 Gid) 的 梯 本 久 .…,X,。 很 设 它们 的 总 体 分 布 关 数 为 PCz》, 而 
其 有 暗 序 统计 明 叉 ., 的 分 布 良 数 为 玉 .(x) ,分 布 常 度 图 数 为 f.《2), 我 们 三 

Fir) =P(R,,, <) 
10 


ni 
= | FY 一 Fr) 
lp: 


~. 


Pe 
二 下 etl £0" "dt 


上 面 最 后 一 个 等 式 被 一 些 书 作为 上 (xz) 的 表达 起 , 如 记 Xe 的 分 布 密度 油 数 为 廊 (z) 则 


nn! -| A nr Fr 
fa nt GO = RU f(r) 


在 7 二 2,r 二 1 的 将 别 情况 ,我 们 有 极 大 值 各 极 小 秆 的 分 页 函数 和 密度 函数 
Fl) = (Fr))", fx) nF fir) 
FY=1— 0— FY, fl) =n( ~ FY f(x) 
在 (x) 已 知 时 ,可 及 一 项 分 布 表 或 Beta 不 完全 积分 表 来 求 FCx). 
下 而 我 们 来 求 两 个 统计 量 Xw 和 XX,,; 的 联合 分 布 刀 CCzy) 好 < 之). 当 x 之 时 ， 
了 My) 一 站 (二 
= -5 > FE) (PYY ~ FO) 一 PCD) 
当 立 六 时 ， 
下 (一 (3 
即 
i 
2 ; 
CRAYFCEOY) — FO Oo— FON) zy 
|: 《3?)， > 
如 相应 的 密度 存在 , 则 有 


如 We 一 
ro ls =r TICn Os)! 
Fo) TIEDY HFOY - PCD) POY SY xy 
[6 C Ty 
特别 ， 当 + 二 1:s=nn 8 ， 
[nln DEC FOI DF), ry 
A Ss 1 
0， Ty 


对 于 两 个 以 上 顺序 统计 量 的 分 布 , 六 不 常用 ,我 们 仅 给 出 所 有 了 个 统计 基 的 联合 密 送 : 
a Ife TC 


(0, 伸 划 
在 随机 措 拟 中 , 产生 某 一 分 布 的 随机 数 十 关键 . 实际 上 该 随机 数 是 道 过 (0,1) 上 的 均匀 分 
布 的 随机 数 变 换 而 得 ,而 后 者 可 由 计算 机 的 标准 程序 而 得 . 其 理论 依据 为 : 
定理 1.1 如 随机 变量 X 有 具有 这 续 分 布 函 数 FE(z), 刚 工 汉 下 (X) 有 (0.1)》 上 的 均匀 分 布 
已 (0y1)， 
该 结论 的 证 明 留 给 读者 ， 


由 此 ， 妇 习 0 Xi 为 来 自 连续 分 布 P(r) 的 顺序 统计 量 , 则 亚 ( 瑟 ty 过: FXG,) 为 
来 白 习 (0,1) 的 顺序 统计 基 , 注意 .此 结 沦 约 道 也 对 , 妈 如 果 (x) 巡 续 ,一 上 (0,1), 则 
F 1 一 天 (rr) 随机 模拟 中 有 一 种 方法 就 利用 这 一 性 质 . 


1.4.2 顺序 统计 量 的 极限 分 布 


显然 , 样本 均值 ,# 分 位 数 ( 包 括 前 面 讲 的 天数 ”) 等 都 是 频 序 统计 其 的 线 半 组 合 . 我 们 因 
此 考虑 一 般 的 统计 基 


Te CX 加 


的 分 布 , 因为 其 精确 分 布 可 出 一 变换 求 得 : 故 这 里 只 给 出 极限 分 布 的 结果 , 令 J(a) 是 一 定义 


在 (0,1) 上 的 实 函 数 . 权 Cu 为 
C, = pd 


: | 


nan 十 1! 


1 二 ls sn 
n 


我 们 有 
定理 1.2 如 果 ， 
1， F(zx) 在 RF 处 处 连续 ; 
人 zaren 一 co 
7(eo) 在 [0,1] 上 除 有 限 个 第 一 类 问 断 点 外 ,处 处 连续 ; 
除 有 限 个 例外 点 ,J Cw) 在 [0,1] 上 处 处 连续 ,如 在 例外 点 上 令 玫 (nw) 二 0, 则 J' Cw) 在 
L0;1」 上 为 有 界 变 差 ; 
5， 记 G(z) = Fi(z) =in[{y:FO) x), 


nD 


7 二 [| [TTD min Gs sa) — max(sst) dO) dG < oo 
do 
则 


Vn 


+ 
i 上 TSF (TONdF (rT) | 一 AD0,o2) 


证 明 请 见 [1]. 
由 此 定理 可 证 样本 均值 的 极限 分 布 为 还 态 , 这 与 中 心 极 限定 理 的 结论 是 一 致 的 . 


1.4. 3 顺序 统计 量 的 充分 完全 性 


我 们 关于 总 体 分布 竟 知 识 ,全 部 来 源 于 样本 六,，… ,XX 而 统计 量 又 是 样本 中 信息 的 浓 : 
缩 和 慨 括 , 如 果 统 计量 能 保留 所 有 样本 中 关 填 的 信息 , 则 该 统计 量 称 为 充分 的 (确切 的 定义 
参见 %1.2,1) 这 个 概念 是 Fisher 于 1925 年 提出 的 . Neyman 和 Halmos 的 因子 分 解 定 球 可 出 
来 验证 一 个 统计 基 是 和 否 充分 . 关于 顺序 统计 其 的 充分 性 我 们 有 如 下 的 定理 ， 

定理 1.3 ”对 于 分 布 族 史 ,Y 下 E 沁 , 设 XX, 为 来 自 F 的 样本 ,内 要 久 … ,XX 是 独 
立 同 分 布 欧 , 则 不 论 多 如 条 , 关 ,Xow 关于 多 都 是 充分 的 ， 

完全 性 主要 用 于 检验 无 偏 佑 计 的 雁 一 性 . 下 面 的 定理 给 出 了 顺序 统计 量 为 完全 的 充 要 条 

件 ， 
定理 1,4 上 般 定 Xi，… ,其 ,为 米 日 分 布 族 肥 的 分 布 为 的 独立 同 分 布 样本 . 如 果 
(1) 史 是 凸 的 , 即 对 于 任意 该 族 中 的 分 布 刀 种 灵 及 0 安 4 迁 1: 有 Ar 十 (1 一 四 产生 罗 : 
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(2) 对 任意 的 a < 83 = [ae ,由 PC5) 一 F(a) 沁 0 可 导出 P(X <zXES)E ZF, 
则 该 样本 的 顺序 统计 量 是 关于 多 完全 的 ， 

上 面 两 定理 的 证 阴 见 [8j. 

出 定理 1, 4 不 难 验证 ,许多 统计 分 布 族 的 头 序 统计 其 是 完全 的 ， 


1.4.4 极 值 统 计量 的 分 布 


极 值 统计 量 在 实际 中 有 许多 应 用 ,比如 人 们 关心 河流 的 最 高 或 最 低 水 位 ,因为 这 
航运 有 紧密 联系 ,气候 和 地 质 的 极 庙 条 件 对 工程 设计 有 重大 影响 等 等. 极 值 分 布 是 统计 的 一 
分 赤 ,我们 在 此 公 介 绍 -下 圾 人 统计 量 分 布 的 三 各 类 理 称 两 人 分 布 F. 和 忆 是 同类 的 ,如果 
存在 常数 a > 0 及 ,使 得 对 所 有 的 ,有 F(x) 一 ,lax 十 号， 这 是 一 个 等 价 关系 ,因为 它 满 
足 自 友 性 .对 称 性 和 传递 性 ,下面 我 们 不 加 证 明 地 引入 Gnedenko(1943) 的 关 士 极 值 统计 量 分 
布 两 数 的 分 类 定理 ， 
定理 1.5 ”如 G 为 一 连续 孟 数 的 极 大 值 分 布 , 虽 它 必 属 下 而 三 类 型 之 一 ,这 里 s>> 0, 是 个 


常数 ， 
E79 (Xx) = expi— err}, oroo 
[二 a ~ 
LI] oe 
| 省 TO 
Bg En " 4 所: 0 
[7 人 
\1, 工 之 0 


连续 函数 擒 极 小 值 分 布 有 类 似 分 类 ,读者 可 自己 得 出 , 其 中 最 常见 的 是 7 型 分 布 . 极 值 统 
计 主 要 研究 - -个 分 布 属于 某 个 类 型 时 需 满 足 什 么 条 件 及 如 何 估计 参数 等 等 . 


1.5 UU 统计 景 的 基本 知识 


1. 5.1 单 样本 统计 量 的 定义 

设 司 ，… ,天 为 来 日 二 (zz) 的 独立 同 分 布 样本 . 假定 我 们 对 王 的 其 参 数 OF 感 兴趣 ,希望 
找到 作为 顺序 统计 量 函数 的 2) 的 一 个 无 偏 估 计量 ,这 就 导致 9 统计 量 的 引进 . 有 的 上 统计 
量 是 独立 于 总 体 分 布 的 . 人 

假定 统计 量 上 《XXXw) 是 8(F) 的 无 偏 估 计 ， 人 "为 (KF) 的 核 . 我 们 总 可 假 
没 核 为 对 称 的 , 戎 对 任意 的 1,…,m 的 排列 (m% ,… ,an)， 

页“ {zi “my 一 Ea 《Zu ‘Te ) 

这 是 因为 总 可 以 构造 对 称 的 核 


hl Tn) La Gan se, ) 


这 里 2 是 对 所 有 1,…,m 的 排列 (m ，…an) 求 和 . 对 于 对 称 的 核 及 ,统计 量 定 义 为 


六 六 ee 
| I 
27L ， 


其 中 多 表示 对 所 有 的 从 (1,…,a? 中 取出 的 吉 个 数 约 排列 Co.…,aw) 且 满 足 m 过 … 之 % 的 
& st 求 和 . 

丙 个 最 简单 的 统计 景 的 例 芽 就 是 样本 均值 和 样本 方差 .它们 分 别 由 取 有 6y) = ym 二 1 
及 hvy) = 一 尖 所得, 并且, 在 定理 1.4 的 条 件 下 ,它们 是 一 数 最 小 方差 天 仿 信 计时 


CUMYUE)Y, 实际 上 ,如 顺序 统计 量 完 全 , 则 相应 的 U 统计 量 是 UMVUE, 而 且 是 唯一 的 , 从 上 
面 U 统计 盟 的 构造 ,可 知 如 何 由 一 个 光 偏 佑 计 景 去 产生 MVUE. 


1. 5.2 两 样本 UU 统计 量 的 定义 

前 面 介 绍 了 了 单 样 木 的 U 统计 量 . 当 我 们 处 理 两 样本 时 ,可 类 似 定义 两 样本 的 统计 时. 

没 六 XX。 和 站， 为 分 别 源 自 了 F(z) 和 GCy) 的 独立 随机 样本 , 假定 统计 量 六 (CR 
YY) 是 BF， 6) 的 无 偏 估 计 , 我 们 称 六 * (1) 为 0L(F,G) 的 核 , 园 样 ,我们 可 假设 核 
为 对 称 的 . 而 两 样本 划 统计 量 定义 为 

0 os ee eR ef Ths se Ks Ya ee) 


jm inl 气 
ee 
这 里 , 符 导 和 前 面 一 样 ,只 不 过 分 别 是 对 a 和 而 已 .下 面 给 几 个 例子 . 
例 1.5 设 苹 ，,…,X, 为 来 自 下 的 独立 同 分 布 祥 本 ,如 取 m 二 1, 核 昭 数 (X1) = 【XX 人 > 
0), 则 单 样本 上 UV 统计 其 莱 . 为 
,= 2 TX, > 0 = 二 $ 
其 中 统计 电 S 描述 了 样本 中 大 于 0 的 个 娄 ， 我 们 乏 之 为 符号 统计 量 (sign statistic), 这 是 非 参 
数 统计 中 经 常用 到 的 绕 计 量 之 一 . 
例 1.6 设 关 ,XX 为 来 自 F(z 一 9) 的 随 棋 样本 ， pe 原点 对 称 , 如 取 
mm 二 2h(RI 一 了 XI 十 尽 ; 六 们 ), 则 以 天 (六 ,于 ,) 为 核 的 单 祥 本 凡 统计 量 已。 为 
U, = pp + X; > 0) 


lr 


| 2， 
如 记 
= TCD r= DX,>0) 
J™] P= 
则 通过 一 定 的 推理 计算 可 得 
Ut, 3 ei r) 


到 


通 这 藉 后 的 学 习 我 们 知道 ,这 也 是 -一作 很 著名 的 非 侈 数 检验 统计 其 一 一 Wileoxon 符号 秩 统 计 
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例 !.7 假定 忌 ， , 革 一 下 和 记 io, 一 G 为 二 独立 样本 . 则 以 AKCz 二 10y 之 1) 为 
核 的 两 祥 本 U 综 计量 为 
U,, = 二 Dty, > X) dom De 一 xX>0)= 


Bit 
其 书 丈 = 2 一 总 > 和 Mann_Whimey 统计 二 通常 .我 们 感 兴趣 的 其 检验 1; 
F = G, 把 两 栏 木 合 es N ee 在 零 摄 变 下 .它们 是 独立 记分 布 


《iiq》 的 ,把 它们 按 次 序 排 成 之 ， “< 对 了 一 “站 记 
记名 a < Y,) 
划 


VY > XX) = Se Ri— 
守 安 


这 个 统计 量 以 后 还 要 用 到 , 它 说 明 Mann- Whitney 统计 县 只 与 7 样本 在 合 样本 中 的 位 置 有 有关 


1.6. 渐 近 相对 效率 


在 假设 抽验 中 . 当 显 著 性 水 平 轩 定 时 ,比较 好 的 检验 有 较 天 的 劳 . 然而 , 势 的 大 小 依赖 于 样 
本 的 大 小 . 人们 日 然 会 认为 , 当 势 相等 时 ,样本 小 的 效率 高 . 类 似 地 ,在 比较 估计 量 时 ,通常 认为 
方差 小 的 好 . 低 方 差 也 依赖 于 样本 大 小 . 人 们 同样 会 认为 , 当 估计 量 的 方差 相等 时 ,样本 小 的 效 
秦 高 . 为 获得 同样 的 势 或 同样 的 方差 ， 现 个 检验 统计 其 或 两 个 千 计 熙 所 用 多 样本 数 自 的 比 信和 就 
起 相对 效率 . 这 个 比值 的 极限 为 渐 近 耕 对 效率 (asymptoric trclative efficiency -ARFR). 虽然 
这 里 说 的 起 样本 数目 的 比 ,但 实际 ,如 使 这 两 个 有 关 的 样本 数 保持 由 等 , 势 或 方差 的 比 也 时 
致 辕 样 的 相对 效率 的 松 仿 . 

我 们 用 检验 来 引入 ARE 的 概念 , 如 检验 右 ,:9 二 0m 下:9 污 0, 令 V4,V 表 示 两 个 检验 
统计 量 . 假定 态 绝 区 域 为 (Vi" 之 )， 1 一 1,2. 如 上 果 站 杏 下; 当 nn 一 0 时 ,P(VS 守 有 ) 一 
2, 我 们 说 该 检验 有 洁 近 水 平 a 对面 定 的 BCe < 有 < 1), 如 ;892) 为 一 个 父 选 假设 序列 , 调 且 随 
春 序 列 !nJ*}， 1 二 1,2 趋 于 无 穷 ,8 > 0, 使 得 对 二 1,3 有 POVW 之 训 ) -> 8. 如 果 极 限 

np 


sm 
i 


任 存 而 且 和 独立 于 {的} xy, 则 称 e 为 Vi 相对 于 Yi 的 渐 近 相对 效率 . 简 记 为 ARECF4D Fe， 
下 ), 这 是 Pitman 于 1948 年 提出 的 , 故 又 称 Pitman 效率 .这 个 思想 简单 ,但 不 好 用 . 下面 介绍 一 
个 实用 的 求 es 蔗 些 骚 . 
假定 下 剂 五 个 条 件 (Pitman 条 件 } 上 成立: 
C1) 了 是 一 个 相 容 俭 验 统计 基 , 即 当 一 所 时 ,对 96E @;, 热 函数 B89,V,) 一 1. 
(2) ”存在 序列 {pC9)}) 和 {0,90)}, 信 得 对 在 9 一 0 的 一 个 邻 域 中 - 一 致 渐 近 地 和 有 有 
TV, 一 上 (9) 


号 
Cr 


dy,(0) | 
(3) 存在 导数 x,(0) 一 9 | 


19=: 


(4) “对 于 趋 于 零 的 序列 !&) , 当 一 co 时 


(加 ) -> 】 LO,) --»] 
Gt0) ? Hl0) 
(5) 
A ,C0) 
一 一 cc>0 
Vn ot0) 5 
这 里 * 称 为 WV, 的 效率 (efficacy),e! 称 为 效率 因子 . 
前 面 所 讲 的 .相对 于 站 . 的 渐 近 相对 效率 等 于 
,BY ec 
me 


这 里 6 为 YY， i =1,2 的 效率 . 因为 求 效率 所 需 的 ,0) 和 oC0) 部 不 难 , 故 产 近 相对 效率 也 
可 得 到 . ; 

以 后 我 们 将 会 看 到 ,利用 浙 近 相对 效率 这 个 度量 ,可 以 看 出 非 参 数 统计 方法 在 许多 情况 下 
有 着 不 可 比拟 的 优越 性 . 


1.7 阅读 知识 


1.7.1 顺序 统计 量 


通过 定理 1. 3.1.4 可 以 知道 ,顺序 统计 量 在 许多 请 况 下 ,尤其 是 在 非 参 数 统计 模型 中 ,都 
是 充分 完全 统计 基 , 故 它 在 非 参 数 统 计 中 占有 极 蛋 要 的 地 位 ,有 关 其 详细 的 知识 可 见 [8]. 下 
面 , 我 们 仅 给 出 一 类 特殊 的 顺序 统计 基 的 线性 组 合 一 一 样本 分 位 数 的 极限 分 布 . 

以 下 设 人 入 ，…: ,六 , 为 来 自 某 分 布 汕 数 Cr) 的 样本 ,f(T) 为 慨 率 密度 . 以 XXX 表 
示 顺 序 统计 量 , 队 样 本 分 位 数 wm 的 表达 式 可 以 看 出 , 它 是 和 own 与 和 ce rn 的 线性 组 合 . 当 
nt 很 大 时 ,可 认为 mp 一 居 cn- 三 冯 .,s 下 面 我 们 考 赔 记 ,; 的 极限 性 质 . 

定理 1.6 (样本 分 位 数 的 Bahadur 表示 }) 以 局 记 X，…:X. 的 经 验 分 布 ,2 表示 总 体 的 
记分 位 数 ,如 果 了 5,) 记 0 且 /0) 在 点 连续 , 则 当 # 一 20 时， 


FE FS) 一 六] °, 
he 9 


证 明 见 [1]. 
从 上 一 定理 可 以 看 出 ,样本 pp 分 位 数 可 以 用 
PR hk 
了 (5 ) . 
来 近似 表示 , 它 说 明了 样本 分 位 数 与 总 体 思 分 位 数 之 间 的 差距 , 关于 样本 分 位 数 还 有 如 下 的 
极 跟 分 布 - 
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定理 1.7 设 名 为 总 体 的 户 分 位 数 , jz) 之 0, 日 f(x) 在 点 连续 , 则 当 n 一 oo 时 ,有 


> , 
eC N29 一声 ) 
ump NO py 


特别 当 p = 0.5 时 ， 
/RK 一 名 No Ke 


证 明 见 [8 
上 一 极限 分 布 在 统计 推断 中 是 非常 有 用 的 一 个 结论 . 


1.7.2 UU 统计 量 


在 极限 理论 中 我 们 知道 ,随机 变量 的 独立 同 分 布 和 的 极限 分 布 是 正 态 分 布 . 而 从 UU 统计 
量 的 形式 上 看 ,U 统计 量 也 是 独立 同 分 布 和 的 一 种 推广 . 近代 研究 表明 ,这 种 看 法 是 正确 的 ,下 
别 我 们 则 不 加 证 明 地 引进 有 关 习 统计 基 的 大 样本 性 质 ， 

下 设 避 ,表示 以 有 (XI1,… ,六 。) 为 对 称 核 ,基于 来 自分 布 六 (x) 的 独立 同 分 布 样本 和， 
的 单 样本 U 统计 量 , 记 

CF) 一 Eph{ XK,) 

由 如 统计 量 的 定义 ,显然 有 Ext 一 FF). 

为 求 忆 , 的 方差 , 任 给 1 世上 世 ms 定义 

下 rr) EREXKI ,rm Nn) | RN. = ri R= x) 
=Erf(z ys Ti Rt XH,) 
记 
= Var 太古， 下 一 了) 广 

可 以 证 明 , 如 果 克 Ph(CXi Xe) 之 00; 则 之 0. 不妨 设 2F) 二 0, 则 


Var | 娄 lr 
1 1 gn] 


站 


了 12 
=E| 3 ACR, ss Xi ) | 


= ERC se Xe I EAC ss Re) 十 DI ERO ss Rs ROR; see Ki ) 


= > DY EC srs Ke ROX ss Xj) 
更 一 上 
其 中 求 和 * ,x * ,x < * 分 别 表示 在 如 下 集合 中 进行 ， 
5 
Sis= {Ei Ci Jk 
3 一 {在 1 市 芝 这 和 并 与 1 代 记 之 及 之 之 所 祈 n 中 恰 有 个 相同 } 
又 因为 
EChCR ser Kar His KRCR. ss Ris Kis Ram) ) 
EC(ELACN se Kaus Rap KRCR se Ke Rs Ram)) Ky Ka) 
Eh Nye Ni) = a 
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所 以 


对 于 两 样本 也 统 计量 ,如 定义 
页 Ke 
=E(A(K ,KY YO NX) = wi Ks = ;= ys yi) 
oh; Var XsY, ea Y,) 


则 
r 3 1 六 7213 一 六 siin— si 
Varfr 一刀 "cc kilr—mgki\ills—t) 
ee jm in 
lal, 
利用 组 合 数 的 变换 可 以 证 胃 , 当 一 时 
Ya, = To + OFT” 
当 m 一 oo0# 一 5c 时 
训 1 
了 rT Se ee | | 胃 了 
Var ss me oh, + Ol 二 | 


育 广 上 面 的 数字 特征 之 后 , Hoeffding(1948) 利用 独立 同 分 布 之 和 去 恕 近 已 统计 量 这 一 
方法 ,证 明了 下 面 的 关于 已 统计 基 的 渐 近 性 质 ， 
定理 1.8 如 果 本 2X < :站 本 >>0, 则 兰 关 eco 时 ,有 
VGN — GF)) -全 NG0vmnzoi 
证 明 见 昌 小. 
对 于 两 样本 统计 晤 右 下 面 类 和 似 的 结论 . 
定理 1.9. 如 果 Eh2CX4 大 ecoi 六 0,054 这 0, 记 


Nv go N | 党 3 2 | 
=- 了 9 十 于 EE 一 0 ,十 二 g2 | 
2 mt | 1,.0 Ga 


则 当 NW oN hn 时 ,有 


DU,,, 一 FG T 
MASS ADS . UE) gd) 


证 明 见 [1j. 
有 了 上 上面 的 极限 分 布 , 则 我 们 可 以 利用 忌 统 计量 进行 慢 设 检验 和 估计 , 感 兴趣 的 读者 可 
参见 [1]. 


1.8 习 题 


1， 任 给 0 过 1 迄 1, 证 明 :¥Y 0 所 7 志 n， 


3l, a a Le 


设 随机 变量 ~ Fr) , 试 证 明 ,加 (Cz) 大 弟 处 处 连续 , 风 下 (人 不 上 最 从 《0,1} .上 的 均 与 分 布 . 
当 总 体 为 (0,1) 上 的 鬼 杀 分 布 , 且 ee 求 出 样本 中 位 数 的 概率 帘 上 典 ， 
举 一 个 简单 例子 证 明 , 梯 本 中 位 数 不 一 定 昆 总 体 中 位 数 的 无 偏 舍 计 . 

5、 设 避 守 和 … i eeY ¥Y lererent, -与 局 
问 分 布 。 

5. 设 总 体 分 布 族 多 一 和 (外 ,一 0 所 人 之 久之 二 50}, 证 明 , 当 二 8 时 (六 oye 避 ,8) 为 完全 统计 
最 ;而 当 # 实 3 圭 , 人 XU,…s 义 i) 却 不 是 完全 统计 最 (这 说 明 在 参数 统计 中 ,顺序 统计 其 不 - 定 是 充分 完全 统 
计量 ). 

7， 设 分 布 画 数 天 Cr) 连续 ,中 ,7 为 来 自 FC7) 的 样本 , 试 证 明 


re 


CY 2 PlaFex) 一 人 (28》 
C2) 大 [> BR kd ])， 
其 中 饭 表 水 型 Bate 分 布 ， 
8. 设 Fir) 0 了 (zx) 的 关于 对 称 胡 分 布 函数 . 请 证 明 以 下 两 个 结论 ， 


{1) 语 于 0 所 wa 所 去 ' 设 点 一 [rej]; 刚 a- 搜 民 均值 


VT, XX,) 一 了 于 法 Xo 
有 如 下 的 极限 分 页 ， 
Mn WON i 
其 中 
i a, 
lw dF tz) 十 o-] 
= suply:F(ly) <1—a) 


《1 一 20)° 
(2) 对 于 ee Co 二 ), 设 一 [na], 则 -Winsor 化 均值 


下 
到 (CR 一 人 十 Xp 十 Ren 
DA 


丰 如 十 的 棋 限 分 布 ， 
WR se —0 .7 vy,1) 
其 中 
a | | 
2 dF(r) + Zal 6 — ~ 一 


4 试 证 明 例 1.6 中 的 尽 统 计量 的 等 价 形 达 式 - 

10. 试 证 明 例 1.7 中 的 统计 车 多 的 等 价 表达 式 . 

11、 汕 R 返 … 玫 iw 为 来 家 (0,1) 上 均匀 分 布 的 顺序 统计 量 , 求 CovtXy XO,Y 1 和 /4 攻 记 

12， 设 (X,Y) 共有 二 元 连续 分 布 ,了 ,Y 的 边际 分 布 分 曾 为 毛 (z) 和 如 (y) ,这 证 明 : (FCX),GLY)) 在 
CC,1) X (0,1) 上 均 名 分布 的 充 要 条 件 为 X 与 Y 独立 . 

13.。 没 Xe 实 … 失 X 为 来 自 概 率 密度 滑 数 为 


f(x) = 


站 Eco 十 ec) 


的 logistic 分 布 的 样本 , 试 求 其 中 位 数 的 概率 密度 . 

14.。 设 卫 所 … 环 Xn 为 来 白 具 有 概率 密度 
(1 — pi) p;, t= 112,° 
0， 其 它 


P(K; 二 人) 二 | 


的 几何 分 布 的 ud 样本 ? 试 求 Xu 的 分 布 . 
15.。 设 站 wy 护 … 开关 ,为 来 自 芝 连 绽 分 布 Ftz) 的 这 样本 , 且 基 有 概率 窒 度 函数 A(z) .如 定义 


FLX.,} 
F(XGrn)’ 


则 证 明 bz ve 为 来 自 (0,1)》 上 均匀 分 布 的 id 样本， 
16。 设 XYu 氨 … 挟 和 为 来 自 某 连 续 分 布 R(z) 的 次 序 样本 , 令 = EX。s，i 一 1,…n( 假 设 期 各 


存在 ) ,又 设 Yu 气 … 人 <Yw 为 来 自 F[ :的 腺 序 样本 (pe:> 0,e > 0 为 常数 ), 试 证 :E76 = 4 ore 
让 一 Yor : 
17。 设 XX 之 … 忆 X, 为 来 自 某 分 布丁 数 f(z) 的 iid 样 本 ,对 于 下 而 的 参数 9, 试 求 基于 XX，…,X, 的 关 
于 9 的 UU 统计 最 

(13) PUX.| > 1); 

(2 P(X) + RK; + X; > 0); 

(3) ECXJX,)!, 

(C4) E{X) 一 X}!s 

(5) Cov(X.,X,). 

18， 设 关 | 过 … 芒 六 ,为 来 自 某 分 布 函数 F(z) 的 i 庆 样本 ,对 于 参数 9 = P(X, 十 六 ,之 0), 我 们 可 以 取 
例 1.6 中 的 核 函 数 ,但 也 可 以 到 如 下 的 核 冰 数 : 

hi) = 1— f(r) 


i 


i= ln ol, UCU,= FX) 


试 证 之 , 并 说 明 下 (zl 足 否 为 对 称 核 ， 

19。 退 % 委 光 委 和 磺 利 了 和 妥 和 … 委 了 为 分 别 来 自 连续 分 布 RGz) 相 Gty) 的 相互 独立 的 刘 样本 ,8 一 
P(X + Xs < 了, 十 7 了)， 

(1) 证 明 在 Fu 下 = G 之 下 ,6 一 二 

(2) ” 试 求 关于 8 的 U 统计 基 . 

20， 设 XX 入 信和 太太 ,为 分 别 来 自 连续 分 布 的 相互 独立 的 样本 , 试 求 98 二 VsT(X) 十 
VarlY) 的 上 统计 和 芷 . 

21. 利用 表 1,1 中 的 数据 ， 

(1) 构造 - 班 的 蕉 上 呈 图 ,并 写 出 其 层 : 

(2) ”由 (1) 中 的 基 叶 图 求 出 一 班 成 绩 的 中 位 数 ， 

(3) 计算 一 班 的 平均 分 ? 

(4) 计算 一 班 的 下 上 四 分 位 数 包 及 Q@,; 

(5) 检验 一 班 成 绩 荐 否 有 入 常 值 : 1/ 

(6) ” 试 画 出 一 碍 成 线 的 盒子 图 . 

22. 利用 表 1.1 的 数据 ,给 出 班 的 盒子 图 . 

23， 在 同一 个 岗 中 给 出 一 二、 三 班 的 盆子 图 . 

24. 一 个 超级 商场 的 经 理 对 顾客 在 商场 中 前 逗留 时 间 感 兴趣 , 现 殖 忆 地 测量 20 人 的 逗留 时 间 为 (单位 : 
分 钟 )， 

34 28 32 24 38 16 8 24 50 26 
12 20 22 42 30 26 32 28 2 26 
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(1) 试 写 出 这 些 数据 的 芭 叶 疼 及 层 ， 

{2) 求 这 些 顾 客 逗 留 时 间 的 五 数 概括 

:3) 检测 这 些 数据 是 可 有 腊 常 点 ，; 

(4) 归 出 合子 图 ， 

{5) 画 出 直方 图 . 

25. 某 太 学 新 生 和 学 的 第 一 天 ,有 人 询 品 了 落 十 名 新 生 衣 服 口袋 中 带 有 多 少 钱 ,更 记 录 如 下 (单位 :元 )， 


男生 : 81 26 8 10 0 20 14 33 50 10 
0 12 23 55 28 56 53 55 2 
女生 ， 4 128 1 0 73 2 8 3 24 94 
30 39 ]0 146 0 87 10 22 6 8 
10 47 33 7 
本 
1》 试 画 出 男生 与 女生 的 背靠背 鞋 叶 赂 ， 
12) 试 分 别 求 出 男生 与 女生 所 带 钱 的 五 数 概括 ， 
(3) 试 写 出 联合 的 莹 叶 图 及 五 数 概 括 ; 
(4) ”检验 联合 数据 是 否 有 异常 点 ， 
25. 下 而 数据 记录 了 美国 在 1986 年 的 50 个 州 及 哥伦比亚 特区 的 失业 率 (%%); 


5.3 2.8 4.7 38 4.0 3.8 6.3 5.0 6.8 8.1 
6.7 B81 88 7.0 5.3 70 61 03 47 5.0 
53.4 4.3 4,5 77 50 11.8 53 6.2 5.9 $5.7 
3.3 8,0 9.8 11.7 8.7 13.1 82 8.9 8.1 8.7 
3990 7.4 9.2 69 60 60 82 8.5 6.7 10.8 
4.8 


试 遂 出 其 盆子 图 ， 
27， 下 商 数 据 记录 了 美国 在 1976 年 的 50 个 州 及 哥伦比亚 特区 的 失业 率 ( 匈 )， 


8.9 6.4 387 95 88] 9.5 310.3 10.4 7.9 7.8 
01 6.5 9.4 56 5.9 40 62 36 3.4 3.3 
42 8.9 68 9.1 5.9 7.3 6.2 6.9 81 90 
3.6 60 6.8 66 7.] 6.8 5.6 57 6.1 5.7 
4.1 5.9 9.1 9.8 5.7 90 87 9.5 9.2 6,8 
9.% 


试 遂 出 其 合子 图 ,并 与 1986 华 朱 业 率 相 比 较 , 对 这 些 差异 也 夯 出 其 盒 了 峡 . 
28， 下 面 一 组 数据 记录 了 他 某 地 区 工作 的 21 名 同志 的 月 均 收 入 {单位 : 区): 


819 ?79 575 665 481 599 493 
454 392 534 479 296 345 244 


349 279 36] 438 194 301 189 
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(1) 试 世 出 其 东 叶 图 (注意 :此 时 的 茎 叶 闷 可 以 通过 忽略 其 个 位 数字 而 得 到 ,但 不 要 四 含 五 入 ); 
(2) 两 出 其 仿 子 攻 . 


29.。 下 面 数据 记录 了 其 些 人 的 甘 疝 数据 (单位 ; 亩 来 , 计 减 去 了 100) ， 


31.4 70.0 72.2 86.0 79.6 67.3 600.6 
62,1 756 77.4 72.7 65.2 
60.6 58.9 55.1 


59.0 64.0 


试 写 出 共 邯 时 图 ( 注 意 : 此 时 的 莹 时 图 可 以 通过 做 略 共 小 数位 而 得 到 ,得 不 要 上 舍 二 人) 


第 二 章 “” 单 样本 问题 


2.1 引 二 


给 定 -- 组 样 木 ,最 常见 的 统计 问题 就 是 对 其 总 体 分 布 的 位 置 参数 进行 推断 . 通常 的 位 置 参 
数 是 中 位 数 或 均值 , 故 要 对 它 进行 假设 检验 .点 估计 或 区 间 人 估计; 有 时 数据 可 能 与 采集 时 的 次 
序 有 关 , 故 要 发 现 数据 的 趋势 ; 当 对 样本 的 随机 性 有 怀疑 时 ,又 要 检验 其 随机 性 等 等 . 另外 在 用 
传统 的 参数 方法 对 位 置 参 数 进行 排 断 时 ,人 们 假设 总 体 是 下 态 分 布 ,或 近似 的 正 态 分 布 , 然后 
利用 :检验 或 与 其 相关 的 点 估计 或 区 间 估 计 , 但 是 关于 总 体 是 正 态 的 假设 并 不 一 定 合理 ,在 小 
样本 时 ,近似 也 不 一 定 合适 . 这 时 ,如 果 用 + 检验 ,就 可 能 会 犯错 误 . 事实 上 ,这 是 个 很 常见 的 错 
误 . 对 于 数据 的 鸠 势 或 随机 性 等 问题 ,不 存在 简单 初等 的 参数 方法 , 但 所 有 这 些 问题 都 有 简单 
的 非 参 数 统计 方法 , 它 对 总 体 分 布 并 不 作 什 么 (或 极 少 ) 假设 , 故 有 很 大 实用 价值 


2.2 符号 检验 


2.2.1 检验 方法 

符号 检验 是 最 简单 .最 古老 的 非 参数 方法 , 我 们 先 举 一 例子 说 明 . 假定 某 地 的 10 栋 房 屋 出 
和 售 价格 (由 低 到 高 排列 ?为 56,69,85,87,90,94,96,113,118,179( 单 位 : 千 美 元 ), 问 该 地 区 的 
平均 房屋 价格 是 否 和 人 们 | 相信 和 的 8 万 4 下 美元 的 水 平 大 体 一 致 . 用 好 来 表示 价格 分 布 的 中 心 
《这 里 考虑 中 位 数 ), 如 假设 该 分 布 是 对 称 的 , 则 M 也 是 均值 . 我 们 要 检验 Ho:M 一 M; 一 
84e 万 :开关 M = 84. 按照 传统 的 参数 方法 ,假设 房屋 价格 卫 ,…* ,XX.(n 一 10) 为 iid 的 


NM46401) 分 布 . 则 ;检验 的 检验 统计 量 为 了 _ 立 二 CR 和) ,7 服从 tn 一 1) 分 布 ,这 里 
和 3: 为 样本 均值 和 样 木 方 养 . 对 于 这 组 数据 ,z 二 99,s = 33.186,T 的 值 ! = 1. 429. 查 表 知 请 
值 为 0.2, 因 此 我 们 不 拒绝 零 假设 (对 竹 何 水 平 K< 0.2). 好 然 , 无 论 答案 是 否 台 理 ,这 种 正 态 分 
在 的 假设 是 没有 根据 的 . 我 们 现在 作 另 一 种 考虑 . 按照 零 假 设 ,数据 应 以 p = 0. 5 的 概率 位 于 
中 心 Ms = 中 的 两 边 . 换 句 话说 ,样本 中 X, 一 M 符号 为 正 的 数目 51 为 二 项 分 布 Btn,p), 同 
样 地 , 栏 本 中 X; 一 M, 符 号 为 负 的 数目 5 也 为 二 项 分 布 B(z,1 一 P). 对 本 例 来 说 S- 和 5S- 的 
分 布 是 一 样 的 , 显然 , 当 S* 或 S$- 太 大 (或 它们 中 小 的 一 个 太 大 ) 时 ,我 们 拒绝 原 假设 . 我 们 原 
来 的 假设 检验 可 等 价 地 罕 成 映 ,: po 二 0. 5 :po 关 0.5, 这 样题 就 成 为 人 们 熟 拓 的 一 项 分 
布 的 检验 问题 . 因为 它 涉及 符号 , 故 称 为 符号 检验 (sign test). 令 尺 = min(3-,S-) 为 我 们 的 
23 


检验 统计 量 , 对 本 全 到 一 2， 

P(EKS2|ln = 10,p=0.5) 一 P( 必 一 0) 十 P( 必 一 1) 一 PR 一 2) 一 0.0547 
即 靖 值 为 2X 0.0547 一 0.1094. 因此 我 们 不 拒绝 才 假 设 5 对 任何 水 平 &< 0. 1094). 对 于 单 边 
检验 吾 ,: MS js 五 :> Me, 显然 , 当 S 太 小 或 $ 太 大 时 拒绝 零 假 设 . 我 们 可 用 其 中 任何 
一 个 作为 检验 统计 量 ( 比 如 取 玉 = Sr), 在 本 例 中 ,我 们 如 改 用 M。 = 120, 则 5S+ 二 1. 值 为 
P(K 一 3 委 1) 一 0.011. 我 们 因此 村 拒 绝 厌 假设 (对 任何 水 平 > 0.011). 在 实践 中 ,可 能 会 
过 到 某 些 X, = MM 的 情况 . 这 时 仅 需 去 掉 这 些 值 ,并 相应 地 减少 二 的 值 . 


2. 2.2 大 样本 近似 


当 样本 大 的 时 人 快 (n 大 时 ) ,往往 很 难 计算 值 , 我 们 可 用 二 项 分 布 的 正 态 近 似 , 即 对 于 EK 
一 B(x, 思 ) , 当 n 大 时 可 近似 地 认为 


区 
rN(0,1) 


在 实用 中 ,要 用 连续 改正 量 (continuity correction) ,这 是 用 连续 分 布 来 近似 离散 分 布 时 所 必需 
的 .对 符号 检验 ,p=0.5, 上 面 的 Z 值 <( 相 应 于 下 的 值 如 应 为 
二 C0.5n 全 
ee / ——N(0,1) 
这 里 C= 0.5 或 C 一 一 0.5 依 上 8 之 0.5n 或 k 疡 0.5n 而 定 .pz 值 鸭 2P(Z 把 x) 二 2 人 (zx)( 对 双 
边 检验 ) 或 P(Z 委 z) 二 (z)( 对 单 边 检验 析 , :MM 二 MoerHi: 衣 M0). 这 里 BC*) 为 标准 正 
态 分 布 函 数 ,其 临界 值 可 由 附 表 2 查 得 . 

下 面 介绍 另 一 和 例子 . 某国 12 位 总 统 的 寿命 ( 岁 ) 分 别 为 46,57,58,60,60,63,64,67,72， 
78,88,90. 辣 该 国 总 统 海 命 的 中 位 数 是 否 大 于 等 于 Mo = 71.5? (问题 成 为 检验 态 ,:MM 之 
Mo 有 :对 < Mg) 显然 , 当 3- 太 小 时 拒 缩 原 假设 .这 里 ,天 = 3+ 一 4. 计算 结果 表明 ,用 二 项 
分 布 算 的 pp 人 慎 为 0.1937, 而 用 正 恋 近似 算 的 p 值 为 0.1922., 结果 类 似 . 


2. 2.3 ”基于 符号 检验 的 中 位 数 的 兽人 信 区 间 


借助 于 顺序 统计 量 及 层 的 概念 , 加 上 二 项 分 布 B(*,0, 5) 或 其 正 态 近 但 的 概率 斗 算 ,很 容 
易 得 到 中 位 数 于 的 置信 区 间 . 假定 我 们 有 一 样本 以 叉 .，，,…, 芯 为 其 顺序 统计 量 . 最 简单 的 置 
信 区 间 是 以 其 第 一 层 为 恒信 限 的 置信 区 间 (XX,y ,和 oo), 相应 的 置信 和 度 为 


Po ES MEK) 1 PMELRw) -PUM> Xo) =1-|| 


对 于 上 面 总 统 寿命 的 例子 , #n 一 12,7t 一 46,zrob 一 90;1 一 0.5" 一 0.9995. 央 而 ,置信 度 为 
0, 9995 的 置信 区 间 为 (46,90). 

我 们 知道 ,人 们 总 是 希望 置信 区 间 小 而 同时 置信 和 度 大 ,但 是 不 可 能 两 全 其 美 , 只 能 固定 其 
一 ,而 使 男 一 个 尽 可 能 地 好 .上面 例子 的 置信 和 度 虽 大 ,但 区 则 也 大 大 了 . 为 此 我 们 可 了 到 不 同 层 的 
数据 作为 置信 限 , 以 满足 事先 给 定 的 置信 着 1 一 a. 比如 我 们 可 用 十 1 层 的 两 个 数据 形成 置 
* 信 区 间 (Xwryy Xe-b) ,同时 满足 已 (天 扫 台 十 已 (居于 一 起 扫 w. 这 个 区 回 就 是 好 的 有 [tl1 - 
2P(K 二)] x 100 和 置信 度 的 置信 区 间 . 对 于 上 面 总 统 寿 命 例子 ,我 们 取 不 同 的 天 直 , 就 得 到 
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1 mi 一 1 


不 同 忱 信和 度 的 各 种 岁 信 区 介 ( 见 下 均 ), 这 里 的 概率 根据 4 是 二 项 分 布 调 得 . 


PK=k) PIKER) | 1—2P(KER) 
0. 00024 0.00024 | 0.9995 
0. 0031 0. 9938 


葡 信 区 间 
(46.90) 
(57,88) 

(58， 78) 
《60,72) 


0.0161 
0. 537 0. 0729 


在 大 样本 叶 , 我 们 可 用 正 态 分 布 近似 二 项 分 布 ， 人 N(0,1). 央 此 ,对 给 


定 的 a 取 # 十 1~0. Sn ~ 后 :这 里 2, 满 足 1 B(2.) 一 “, 可 查 附 表 2 得 到 . 对 上 例 ,如 


求 置信 度 至 少 站 多 的 署 信 区 闻 ,a 一 405， 到 kt 二 1 学 一 1， 9 /~ 注意 ,这 里 十 1 
要 取 整 数 部 分 . 

当然 , 壮 信 限 不 一 定 非 要 取 同 一 层 的 两 个 数 . 这 时 ， 为 了 得 到 置信 和 度 为 100k1 一 所 多 的 置 
言 区 间 《Xi X00)G < 7 力 ,我 们 可 取 17 满足 


1-“= PC <M<X 一 下 二 和 扫 


我 们 知道 MM = mo.s 是 0. 5 分 位 数 . 类 似 地 ,可 得 到 -一般 户 分 位 数 my 的 100(1 ao) 儿 的 普 
信和 区 间 CX6) ,X60,) 这 里 i 满足 
1—a= P(X <m, <X, | 


符号 检验 可 用 来 检验 战 对 数据 的 比较 .， -个 简单 例 a 
的 磨损 程度 , 假定 (X.Y) ,…,(X.,Y,) 为 n 对 数据 , 看 是 否 久 ,和 Y; 大体 相同 .这 就 归结 到 对 
样本 Zi ,2 (2 王 民 一世， 一 1,…2) 的 符号 检验 问题 , 即 检验 其 中 位 数 是 否 为 零 . 

和 罕 导 检验 不 过 任何 对 总 体 分 布 的 假设 ,简单 见习 ,缺点 是 没有 利用 数据 大 小 的 全 部 信息 
以 后 要 介绍 的 其 它 非 参数 统计 方法 , 则 注 意 到 了 这 一 点 ， 


天 


2. 3 Cox-Stuart 趋势 检验 


在 各 种 统计 结果 中 ,特别 是 涉及 经 济 . 人 口 、 环 境 . 卫 生 等 随 着 时 间 变 化 的 统计 数据 ,人 们 
往往 关心 变化 的 趋势 ,比如 ,收入 是 否 下 路 了 ,环境 是 否 变 坏 了 ,气候 是 否 变 暧 了 等 问题 . 给 定 
一 组 数据 后 ,如 何 看 其 趋势 呢 ? 最 常见 的 参数 方法 是 用 线性 回归 拟 合 -条 直线 ,再 看 其 是 否 上 
升 .然而 ,单调 的 趋势 不 一 定 是 线性 的 ,也 不 一 定 能 由 一 个 显 函数 来 表达 . 这 里 我 们 来 考虑 一 个 
简单 的 非 参数 方法 . 直观 上 ,能 通过 前 后 数据 的 比较 来 看 一 组 数据 是 否 有 单调 的 趋势 . 我 们 可 
以 选 许多 对 数据 ,每 一 对 由 前 后 两 个 不 同时 间 的 数据 组 成 ,它们 的 间隔 应 尽 可 能 地 远 , 因 为 
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个 总 体 上 升 或 下 降 的 数据 在 局 部 上 可 能 有 小 的 不 规则 的 波动 ,这 些 数 据 对 应 等 距 ,以 便 它们 的 
差 为 同 分 布 的 , 因此 每 对 中 两 数 的 距离 也 不 能 太 大 而 使 得 对 的 数 自 太 少 , 为 此 Cox 和 Stuart 
于 1955 年 提出 了 基于 符号 检验 的 非 人 参数 方法 . 假设 有 个 数据 了 ,,… ,XX,. 我 们 想 看 是 否 随 着 
下 标 有 上 升 或 下 降 的 趋势 , 换 句 话说 ,就 是 下 列 三 个 检验 问题 之 一 : 

1 五 :无 赵 势 “> 妃 ,; 有 升 或 降 的 趋势 ; 

2. 五 :无 上 升 趋势 全 互 , :有 上 升 趋势 ; 

3， 五 ;: 尤 下 降 趋势 ** 坟 |; 有 下 降 趋 势 . 


我 们 的 数据 对 可 取 为 CX,, 关 1 ， (Xa-er 叉 ,) ;这 里 当 为 偶数 时 ,c = 本, 当 “ 为 奇数 


eS ed op a dey 
配 上 对 . 令 DD; 一 XX, 一 X435+ 为 (有 上 中 正 号 的 数 日 ,而 5- 为 负 号 的 数目 . 当 没 有 趋势 时 ,S+ 
或 5- 为 加 = 0.5 的 二 项 分 布 . 显然 ,如 果 8+ 大 (或 5- 小 ), 则 可 能 有 下 降 趋势 ,而 如 果 S- 大 
(或 5- 小 ), 则 可 能 有 上 升 趋势 相应 于 上 而 三 个 检验 问题 ,分 别 取 检验 统计 县 
l. 下 一 tminf3r 5) 2 天 一 97 3 KS 

检验 过 程 和 前 面 的 符号 检验 完全 一 样 . 当天 太 小 时 ,我 们 拒绝 原 假设 ， 

下 面 以 一 例 来 说 明 这 个 Cox-Stuart 检验 ， 

美国 国家 字 航 局 NASA) 自 1966 至 1984 年 的 科研 和 发 展 经 费 按 时 间 顺 序 为 (单位 为 
万 美元 )， 


5.9 5.4 4.7 43 3.8 3.4 3.4 3.3 3.3 3.3 
37 39 40 4.2 49 52 6.0 6.7 7.0 


我 们 有 ?一 19,c 一 10,S -一 4 3 一 5. 如 考虑 上 面 和 检验 1, 即 如 :无 趋势 一 太 ,: 有 趋 热 , 取 检 
验 统 计量 上 = min(G3+ 3- ) .天 的 值 为 & 一 4 为 值 为 2P( 天 < 扫 &) 一 1 因此 ,即使 若水 平 x = 
] 也 不 拒绝 类 假设 . 但 如 果 我 们 只 取 自 1970 人 多 1984 的 数据 ,并 考虑 上 面 检验 2, 即 恕 :无 上 升 
趋势 一 互 ;: 有 上 升 趟 势 ,有 ?一 15,c 一 8,S+ 二 0,S- 二 7.p 信 为 0.0078,. 于 是 ,对 所 有 水 平 e 
> 0.0078 都 可 拒绝 原 假设 .这 和 前 面 的 结果 似乎 了 矛盾, 实际 上 ,如 果 我 们 仔细 观 查 原 数 据 或 散 
点 图 的 话 , 就 可 以 看 出 数据 是 先 卜 降 后 上 升 的 . 因此 内 Cox-Stuart 方法 就 检验 不 出 有 任何 趋势 
了 ,此 例 也 说 明 预 完 对 数据 进行 初步 分 析 ( 如 散 点 图 ) 的 好 处 . 


2.4 随机 游程 检验 


通常 所 说 的 随机 性 是 指 样本 中 所 有 数据 都 可 看 成 是 独立 同 分 布 的 观察 值 ,上 面 提 到 的 有 
升降 趋势 的 数据 不 是 随机 的 ,有 周期 性 变化 的 数据 也 不 是 随机 的 , 当 数据 正 相关 时 ,大 的 或 小 
的 数据 往往 有 聚 在 一 起 的 倾向 . 负 相 关 时 , 则 正 相反 . 这 一 节 :我 们 主要 考虑 二 元 数据 的 观察 
值 ( 比 如 Bernoullii 试 验 的 结果 ,它们 总 可 以 用 0 和 1 米 表示 , 在 一 个 随机 的 观察 值 序列 中 ,0 或 
1 的 集中 度 有 一 定 的 范围 ,我 们 因此 引进 游程 的 概念 来 描述 这 种 集中 程度 . 在 一 个 由 0 和 1 组 
成 的 序列 中 ,一 串 不 问 断 的 0 或 1 称 为 一 个 游程 (run)，- 个 游程 中 数字 “0” 或 “1” 的 个 数 , 称 为 
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该 游程 的 长 度 , 游程 个 数 尺 太 多 , 则 说 明 0 和 1 不 集中 或 游程 太 短 ( 负 相 关 ); 如 游程 个 数 太 少 ， 
则 说 明 0 和 1 较 集 中 或 游程 太 长 ( 正 相 关 ). 通过 上 面 的 分 析 , 我 们 知道 漳 机 性 假设 的 拒绝 域 应 
为 iR 经 Qi UI 民 六 c)， (6 所 2), 比 如 0 和 1 的 序列 


Le 0 QO Bd Or Oo 1 


有 6 个 游程 ,用 R 一 6 表示 ;其 中 有 3 个 基 由 0 组 成 的 (长 度 分 别 为 3,2,1), 用 mm = 6 表示 数字 
0 的 个 数 ;3 个 是 由 1 组 成 的 (长 度 分 基 为 2,2,3) ,内 一 7 表示 数字 1 的 个 数 .在 零 假设 下 ( 随 
机 性 ),K 的 分 布依 燥 于 出 现 1 的 未 知 概率 .但 基 , 在 给 定 坟 和 的 条 件 下 ,RR 的 任何 一 种 可 能 
的 概率 都 尾 -1. ， (CN 二 mw 十 nn). 因而 有 


人 
nA 
oli n—1l 
PC(R=; e101 
| 
及 
oe | nO—1' 
PRR 二 外 二 1) 和 一 1 有 k kl1l 
四 


这 个 表示 很 简单 实用 , 并 且 Swed 和 Risenhart 于 1943 年 依 此 构造 了 只 的 零 分 布 表 ( 见 附 表 4). 
对 于 大 祥 本 来 说 , 当 一 “< 而 写 一 7 时, 则 有 


渐 近 趋 于 标准 正 态 分 布 ( 证 明 见 [1]) ,于 是 当 样本 容量 很 大 时 ,可 近似 地 取 临 界 值 为 


; Zu Zz 
| 2 | i | 2 | 
元 十 志士 7 m—n|l /RF 


上 面 我 们 仪 讲 了 三 元 数据 随机 性 的 游程 检验 ,而 实际 中 过 到 的 数据 未 必 都 是 二 元 数据 ,此 
全 事实 上 , 如 取 Y; 二 了 (X; … 六, 
> 0), 则 可 以 把 检验 Xi，…X, 的 随机 性 问题 转化 成 恰 验 了 ;,… ,7, 的 随机 人 性 问题 , 当然 ,这 种 
转化 不 是 完全 等 价 的 ,这 是 Mood 于 1940 年 给 出 的 ， 有 兴趣 的 读者 可 见 Ann, Math. Sratist, ， 
1940(11):367 一 392. 我 们 称 此 种 方法 为 中 位 数 法 . 

例 2.1 对 某 型 号 电缆 进行 而 压 试验 , 测 得 其 20 根 的 数据 如 下 : 


甘 156.0,255,5,132. 0,246.7,867.9,86.4,610, 4,125. ?7,150. 4,117.6 
- 201. 9,207. 2,189. 8,585. 8,153. 1,565.4,511.0,567.0,222. 3,141.5 
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根据 这 些 数 据 能 否认 为 这 些 电缆 受到 了 非 随机 因素 的 干扰 ?或 者 说 ,能 否认 为 牛 产 这 种 电缆 的 
机 器 不 正常 ? 
对 于 本 例 ,我 们 利用 上 述 中 位 数 法 ,计算 样本 中 位 数 为 204. 6, 相 应 的 了 样本 为 : 


0y1,0,1,1,0,1,0,0,0.0,1,0,1,0,1,1,1,1)0 


则 %= 二 7n 二 10; 丰 二 13; 对 本 a 二 0.1, 由 附 表 4 利得 c, 一 6,cs 一 16, 因 为 6 之 13 过 16; 则 认 
为 这 些 数据 符合 随机 性 假设 ， 


2.5 阅读 知识 


前 面 我 们 讲 过 样本 中 位 数 是 总 体 中 位 数 的 渐 近 无 偏 估 计 . 实际 上 还 可 以 证 明 , 任 给 
0 之 户 之 1, 设 了 ，… ,XX, 为 来 自 F(z) 的 独立 同 分 布 样本 ,R(z) 在 其 pp 分 位 数 &, 处 连续 且 存 


在 密度 函数 f(x), 并 有 fC&,) > 0. 则 样本 记分 位 数 m。- 6,sn 一 oo. 
事实 上 , 因为 FE) 半 0, 则 6 唯一 , 且 对 于 任 给 的 s 汗 0 有 
: Tite ee pe FEE + 
由 强大 数 定律 知 


机 .< 站 ps Fa ; 
HX eT pe cp 


lim 
nm | 
(这 里 的 符号 “# ”表示 计数 的 意思 ) ,所 以 
P( 对 于 充分 大 的 ,天 ,,… ,XX 中 小 于 名 一 上 的 个 数 不 超 过 zz 一 1) 一 1 
义 由 于 [xp] 沁 wp 一 1 及 ms 的 定义 , 则 知 
.了 P( 对 于 充分 大 的 nm 6 — 6)=1 
闻 理 可 证 
PR( 对 于 充分 大 的 apzz 袜 名 昌 一 1 
即 mm 一 en — oo, 
下 面 我 们 看 一 看 有 关 $, 的 置信 区 间 与 置信 和 限 ,下 设 和 是 唯一 的 ， 
首先 求 形 如 Xe 的 置信 上 限 , 即 对 于 给 定 的 & > 0, 求 ,使 
有 (Xin 之 和) 一 1 一 a 


由 8$1.4 知 和 的 确切 分 布 , 故 拓 的 1 一 “的 团 信 上限 怀 o 应 满足 


下 i 
alr 2 ee 


"fe -(l 一 2 "dt=a 
riJo 


当 妈 不 很 大 时 ,可 以 通过 二 项 分 布 表 ( 见 附 表 1) 查 得 7 的 值 .但 是 应 注意 到 ,对 于 事先 给 定 的 a 
六 0. 不 一 定 恰 好 有 一 个 正 整 数 7 满足 上 式 ,而 外 能 存在 一 个 正 整 数 m, 使 得 
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0 [pO pt <a | ra -py 让 
4， 


此 时 ,有 两 种 处 理 广 法 ， -是 看 上 式 两 问 哪 -个 与 接近 ,就 取 那 个 下 整 数 ; 一 是 用 下 面 的 随机 
化 方法 , 令 


k= 


2 i — py 一 w 


[| ma -rm 


Lee 


显然 0 < 5 < 1 旭 任 到 一 个 VC0,1) 上 的 随机 数 . 则 的 到 法 如 下 ， 
a fr 十 1， 1 < 妇 人 
oi I 上 人 
验 让 一 下 知 ,这 样 得 到 的 置信 上 限 X,， 其 置信 谋 的 确 为 1 一 。 
当 # 很 大 时 ,由 于 二 项 分 布 收 化 于 正 态 分 布 , 敬 总 体 分 位 数 吉 的 置信 上 限 X 可 以 近似 地 
写成 
rnp+0.5+ 2 Vapl — pp) 
关于 6, 的 形 如 X6 的 置信 下 限 , 可 关羽 求 得 , 望 读者 自己 补 上 . 
有 了 的 置信 上 限 及 置信 下 限 之 后 , 则 可 以 近似 地 得 到 $, 的 置信 区 间 , 首先 分 别 求 出 6 
的 1 一 子 的 次 信 上 下 限 Xu ,Xw, 则 其 1 一 “的 置信 区 间 可 近似 地 取 为 [Xe ,Xo], 事实 上 ,这 
样 得 到 的 置信 度 不 低 于 1 一 ^- 
PCXo <§, < Xi) 
守 P(Xw SS TT P(E, SER) 一 1 
| 一 1 一“ 
由 此 可 见 ,这 样 得 到 的 置信 区 间 是 比较 保守 的 . 当然 ,精确 的 求法 币 是 存在 的 , 感 兴 元 的 该 者 可 
参见 [iJ 


2.6 习 题 


1 设 义 ,… ,ZX 为 4 个 来 自 茶 连 续 分 布 疯 数 F(x) 的 iid 样本 , 试 求 满足 
{1) P(X 入 性 ) 六 0.95; 
(2) PFCKw — F(X) S08) 0.95 
的 最 小 的 xz 为 中 位 数 ). . 
2. 设 分 布 菠 数 上 (xz) 连续 ,并 为 其 中 拉 数 ,为 来 日 Ffz) 的 iid 样本 ,各 (XK) tr 去 


?是 开 的 1 一 “置信 区 间 , 出 “满足 
2 一 (0， 5 "]= 2 i “(1 — ndr 


3. 设 瑟 ),… ,XX。 RE),b, 为 下 (z) 的 户 分 位 数 , 记 
pa:= PX < #$), p>»— P(X > $.), Sc= 共和 )， 3 一 失信: 人 > 站) 


证 明 


(1) ECS S:) ~ npe— ps), Var(S -一 3) = npet pa— (pi— po))i 
(2) 如 z< 十 记 > 一 1 则 以 椰 宰 1 保证 S<- - S$、 的 奇偶 性 与 # 相同 ， 

4. 试 证 明 , 由 随机 化 方法 得 到 的 中 位 数 的 置信 上 限 的 置信 上 度 的 确 为 1 一 a. 

5. 现 从 某 个 单位 中 随机 地 抽取 3 名 职工 ,其 日 收入 为 单位 ;元 ): 


38. 3,41, 2,47. 0,36. 5,39. 1.38. 9,38. 3,40. 2,37.9 
(1) 试 求 其 中 位 数 的 估计 ! 


C2) 斌 求 中 位 数 的 95 多 的 置信 区 间 . 
6. 


没有 甲 , 乙 两 地 , 申 在 乙 地 的 东边 , 现在 甲 地 饲养 10 只 信和 甬 , 过 一 段 时 间 后 , 送 到 乙 地 放飞 ,并 浏 其 消 
失 时 的 飞行 方向 分 别 为 和 有 有 东 坊 北 20°,35°,350°,1207,85*,345,80*,320°,280,85". 显然 , 由 一 90? 和 
270° 一 360” 中 的 数据 表明 ,该 信和 镶 的 飞行 方向 偏 东 ,否则 ,就 偏 西 ， 

0) 求 其 中 位 数 ; 

(2》 试 求 中 位 数 的 95% 轻信 和 区间 ; 

(3) 试用 符号 统计 其 检验 这 批 信 售 《和 行 方向 是 否 偏 东 ? 并 求 由 其 总 值 ， 

克 


现 有 新 \ 担 两 个 小 到 品种 ,把 他 们 分 别 同 蛤 种 在 8 抉 地 上 做 试验 , 测 得 其 产量 为 单位 :公斤 / 译 ): 


2 3 4 5 6 了 8 
200 177 169 159 187 169 138 
1]1658 147 154 166 176 169 188 


《1 


试 求 新 旧 品 种 小 麦 雷 产量 中 位 数 的 估计 ; 
C2) 


试用 符号 统计 量 检验 新 品种 小 碌 是 否 优 于 旧 邮 种 ? ; 
8. ”在 某 一 地 区 , 作 们 测 晤 到 某 种 类 的 成 个 猴 的 平均 体重 为 8.41 公斤 ,而 在 另 一 地 区 人 们 观测 到 此 种 成 
年 猴 的 体重 为 : 


8. 30 9.50 


9.60 875 8.40 9.10 9.25 9.80 
10.05 8,15 10.00 9.60 


9.80 9.20 9.30 
从 这 纪 数 所 ,我 们 能 否 说 这 组 钦 的 体重 的 中 世 数 大 于 8. 41 公斤 ?并 求 出 其 值 . 
9. ”在 某 一 地 区 , 现 从 有 吸毒 史 的 病人 中 抽取 15 人 ,询问 其 第 -次 吸毒 时 的 年 龄 (次) 如 下 ， 


22,24,37,28,15,14,22,16.18,17,23,16,20,18,15 


(1) ”由 此 能 否 说 本 地 区 吸毒 人 第 一 次 吸毒 的 年龄 中 位 数 为 20? 并 求 其 声息 ， 
(2) ”并 求 出 中 位 数 的 5% 的 置信 区 间 ， 
10, 


在 其 一 学 校 , 随机 地 拙 取 20 各 “下海 ”的 大 学 生 , 询 问 其 “下 海 "的 原因 是 不 是 为 了 挣 钱 以 减轻 家 里 

的 负 殷 ,其 中 有 6 人 同等 “是”, 请 同 这 些 数 据 能 理 说 明 * 下 海 * 学 生 挣 钱 的 目的 在 于 威 轻 家 里 的 负担 ,其 声 值 为 

客 少 ? 

11， 我 国 1949 一 1983 年 间 大 豆 总 产量 如 下 (单位 ;万 吨 ) 
30 


1952 1953 1954 1955 1956 1957 
952 993 908 912 1024 1005 
1961 1962 1963 ‘1964 1965 1966 
621 651 691 787 614 827 
1970 1971 1972 1973 1974 1975 
87E 861 645 837 747 724 
1979 1980 1981 1982 1983 | 
746 794 933 903 976 


试 可 大 豆 的 产量 是 否 有 上 升 的 趋势 1 并 求 其 值 . 
12.。 于 1973 年 美国 联邦 保险 公司 提交 给 国会 的 年 度 报 告 中 指出 ,棉花 入 保 的 数量 如 下 : 


年 份 ] 1948 1949 1950 1951 1952 -1953 
产量 | 19179 26667 33969 57715 38086 38434 
秆 份 | 1954 1955 1956 1957 1958 1959 
产量 | 24196 19319 29975 2545] 20410 19910 
年 份 | 1960 1961 1962 1963 1964 1965 
产量 | 15628 15375 2132 286526 21865 21152 
年 份 | 1966 1967 1968 1969 1970 -197?1 
产量 | 23458 25774 32646 31786 24821 19593 


试 回答 :棉花 入 保重 是 否 在 逐 咎 下 降 ? 
13.” 试 证 明 游 程 检 验 统计 最 的 零 分 布 的 期 望 与 方 项 如 下 : 


E(RY 一 1 十 em 
Pit 
VarCR) = Dnn (D7an 一 mt — nx) 


tm + nm + no 1) 
14， 在 某 一 电话 亭 , 观测 打 电 话 人 的 性 别 ( 以 村 表示 男性 ,F 表示 女人 性) 依次 如 下 : 


15。 一 洗 发 齐 生 产 厂 家 的 质 恰 科 要 冰 每 频 洗 发 剂 的 平均 重量 为 12 液 量 僵 司 . 现 从 … 台 机 器 中 随机 抽取 
六 瓶 : 测 其 重量 如 下 ， ， 


12.9 12.5 13.2 12.3 11.5 11,8 11.7 12.2 12.4 12.6 


12.5 12.8 11.8 11.5 11.6 12,7 12.6 12.7 12.8 12.2 
试验 证 这 人 台 机 器 多 治 少 灌 是 不 是 随机 的 . 
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第 三 章 ”对称 分 布 的 单 样本 问题 


3.1 引 


前 面 一 章 讲 的 非 参 数 方法 对 总 体 未 作 任何 要 求 ,因而 适应 性 很 广 . 但 是 ,如 果 我 们 已 知 总 
体 分 布 的 一 些 性 质 而 不 利用 ,就 会 浪费 许多 有 用 的 信息 . 最 常见 的 就 是 分 布 的 对 称 性 . 有 了 对 
称 性 ,我 们 可 用 更 有 效 的 方法 以 利用 数据 中 的 尽 可 能 多 的 信息 . 很 多 数据 看 起 米 并 不 对 称 , 但 
在 一 些 变换 下 (如 指数 变换 ) 可 成 为 对 称 的 ,或 大 体 上 是 对 称 的 , 因此 对 称 性 并 不 是 一 个 很 强 的 
条 件 , 基于 对 称 性 假设 的 方法 有 广泛 的 应 用 性 , 在 非 参 数 方法 中 ,我 们 感 兴趣 的 位 置 参数 主 委 
是 中 位 数 ; 而 在 参数 方法 中 则 为 均 信 . 如 果 分 布 对 称 而 且 中 位 数 唯一 ,这 二 者 就 是 等 同 的 (可 称 
之 为 中 心 ), 因 而 可 以 比较 参数 方法 和 砷 参数 方法 在 不 同 条 件 下 的 优 劣 . 

在 本 章 中 ,我 们 主要 考 虚 连续 的 对 称 分 布 . 称 一 个 连续 分 布 函数 F(z) 关 十 原点 对 称 ,如 
果 YzERRERz) 一 1 一 了 (zx). 用 概 它 表示 为 , 设 XX~F(zx), 则 Y x ER， 

P(X I) = P(X 7) 

设 9 为 一 实数 , 苏 随机 变量 义 或 分 布 函 数 FCz) 关于 2 对称, 如 果 随 机 变量 X 一 8 或 者 分 
市 函数 F(z 十 0) 关于 原点 对 称 , 且 6 称 为 对 称 中 心 

用 0, 表示 所 有 连续 的 中 位 数 等 于 零 (F(0) 一 广 ) 的 分 布 所 组 成 的 族 ,用 0。 表示 0, 中 的 
对 称 分 布 类 , 即 


f= {FFE QFP(— zx)=1. Flr)} 
关于 对 称 分 布 ,由 简单 的 概率 运算 ,可 得 以 下 人 性质 ( 有 些 上 面 已 提 到 ). 
定理 3.1 随机 灾 量 天 关 杆 8 对 称 当 且 仅 当 苹 一 8 和 0 一 尺 依 分 布 相等 ， 
证 明 ”必要 性 . 
因为 和 关于 8 对 称 , 则 并 一 关于 康 点 对 称 , 即 
yz PAR-0OLr)— PR I>— r= PO Xr) 
即 艾 一 9 与 9 一 义 依 分 布 相等 . 
充分 性 . 
任 给 ,因为 XX 一 0 与 0 一 六 依 分 布 相等 ,所 以 | 
P(X— Or = PO— Xr = PE xz) 
即 六 关 十 8 对 称 . 癌 
推论 3.1 如 果 随 机 变量 开关 于 对称, 日 其 期 望 存在 , 则 期 望 等 于 已 
推论 3. 2 ”对 称 分 布 的 对 称 中 心 必 唯 一 . 
上 面 两 个 推论 的 证 明 留 作 习 题 . 
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定理 3. 2 ”如果 随机 变量 他 关 于 8 对 称 , 则 对 称 中 心 8 是 总 体 中 位 数 之 一 . 
证 明 因为 * 关 于 9 对 称 , 所 以 | 
Yrx: PUX—0<7)= P(X -0>— 2z) 
特别 地 , 取 工 一 0, 则 
1 


P(X <0) — PX>OPX < EI 
下 证 P(X 世人 沁 十 . 反 证 ,如 P(X 所 9 < 车, 则 
P(X>0= P(X < =1 一 P(X<<0)> 上 十 
这 与 上 面 给 论 巴 盾 ,综合 两 者 ,有 
PX <DEFEPXED 
即 9 是 时 的 一 个 中 位 数量 


3.2 秩 及 有 关 分 布 


在 样本 X. ，…,X, 中 ,X, 如 果 是 第 R; 个 最 小 的 , 即 天 = Xns( 第 R; 个 顺序 统计 量 ), 则 我 
们 称 R; 为 的 秩 , 显然 ,R 一 DTCX, 志 XX). 令 R = (Re,R) .于 是 玉 为 样本 的 一 个 统计 
量 .凡是 由 秩 产 生 的 统计 量 都 称 为 秩 统计 量 . 在 样本 是 随机 (iid) 的 时 候 ,R = (R,,…,R,) 到 
(Lo 的 任意 中 1 个 排列 之 一 的 梳 率 都 是 一 样 的 , 即 革 ,所 句 语 说 ,及 在 由 (1,…,n) 的 所 有 排 


列 组 成 的 空间 上 是 均匀 分 布 .于 是 有 了 下 面 的 定理 : 
定理 3.3 对 于 iid 样本 ,对 (1,…,n) 的 任 一 排列 (和 …zm) 有 


P(R— (mt) = 1 
Al 


证 明 记 
这 二 {Ch sn) 是 (1 ,a) 的 一 个 排列 } 
则 六 中 共有 x! 个 元 素 ， 
P(R = (i gis)) 
一 PORK 区) 一 《Xe 人) 
A A 


其 中 4d, 表示 数 ? 在 (i, ,i) 中 由 小 到 大 排列 的 位 次 , 即 :区 -3 Ka. 因为 XXX 是 iid 的 ， 


所 以 CR ,局 ) 与 (XXX ) 同 分 布 , 即 
PIR = (bs si)) 
=P(X4 < Xa, < < ) 
=P(X, < XR XN,) 
=P(R = (1 ,7)) 


则 友 的 分 布 与 其 到 值 无 关 , 又 因为 多 中 共有 x! 个 元 素 ， a 
POR = Cysi)) = 0 
上 面 定理 说 的 是 R,,…,R, 的 联合 分 布 , 类 似 地 ， ee 在 空间 1,…,n 二 有 均匀 分 布 
ea 每 一 对 (Ri,R) 在 空间 {7,5) :r,s 二 1,…,n,r 关 $s} 上 有 均匀 分 布 (在 


每 一 点 的 概率 为 -6 上). 以 推论 的 形式 有 
推论 3.3 ee i 


P(R 一 门 一 工 
好 


ER 由 
PlR;=r,R,= #8) 一 ye 
读者 还 很 容易 得 到 下 面 的 另 一 推论 . 

推论 3.4 对 于 iid 样本 ,对 任意 rs5 = lyn 天 > 及 :天 7 


2 
人 十 1 一 1) 


Var{R;) = 12 


Cor(Ri,R) 一 一 “5 


理论 上 , 用 类 似 方 法 可 得 到 (Rj,… ,RD, 1 < 委 下 所 半 的 所 有 可 能 的 联合 分 布 . 有 兴趣 的 读 
者 可 试 一 试 , 从 工 面 定理 可 见 , 对 于 iid 样本 , 秩 统 计量 的 分 布 和 原来 的 总 体 分 布 没有 关系 
《distribution-free). 我 们 也 未 对 总 体 分 布 作 任何 假设 . 

前 面 的 秩 统计 量 只 考虑 了 样本 点 的 大 小 而 未 考虑 其 绝对 值 的 大 小 ,但 其 绝对 值 的 大 小 有 
时 是 很 重要 的 , 例如 对 数据 一 0.21, 一 0.2, 一 0,13, 一 0.01,0,15,50,100,150 来 说 :0 是 中 
位 数 ,有 有 正 号 和 有 负 叶 的 数目 一 样 ; 如 果 只 看 秩 , 而 不 看 原来 数据 ,给 大 的 印象 是 一 个 很 对 称 的 
样本 ,. 但 实际 上 则 不 然 . 问题 出 在 数 慎 的 绝对 值 的 大 小 没有 考虑 进去 . 现在 引进 Wilccxon 符号 
秩 统 计量, 用 殉 ' 来 表示 , 我 们 把 样本 的 绝对 值 |X: | ，… ,|X， 排序 , 其 顺序 统计 量 为 |X| a， 

,|XX|w. 用 Rj;* 表示 | 及 ,| 在 绝对 值 翌 本 中 的 秩 , 即 |X;| = |XX|ox*;. 我 们 还 用 SCz) 表示 符 
号 函数 1(z > 0), 它 在 4 > 0 时 为 1, 否 则 为 0. 为 方便 起 见 ,我们 引入 反 秩 (anrirank; 的 概念 . 
反 秩 D, 是 山 1Xs | = | 二 | 定义 的 . 我 们 还 用 WW; 表 示 与 | 和 |, 相应 的 原 祥 术 点 的 符号 孙 数 ， 
即 W, 二 SCXo), 且 了 你 尺 ,*' SCX;) 为 符号 秩 统 计 其 .Wilcoxon 符号 秩 统计 量 定 义 为 


W-= DW — Dar: Sx) 


j=!l 


它 是 正 的 样本 点 按 绝对 值 所 得 的 秩 的 和 , 为 说 明 这 些 概 念 ,月 如 例子 
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例 3.1 如 样本 值 为 ; 7,9. 一 2,8, 一 10,1, 则 相应 的 统计 量 估 为 


XX xX 了 X， X, Ns 

7 9 一 2 8 一 10 1 

IX| 3) [Xl IX | [XI [Xl [| 
Ri+= Rit=5 Rt+=2 Rt = Rs+ 一 Ri+ 一 1 
W,;=1 W,=1 W,=0 W,=1 Ws=0 Wi=1 
D1 Ds=2 Dzs=$ D,=4 De=5 Di=6 


显然 WW+= 3 十 5 十 4 十 1 一 13. 

下 面 我 们 介绍 上 述 有 关 统 计量 的 一 些 性 质 , 为 下 一 节 的 Wilcoxon 符号 秩 检 验 作 准备 . 假 
设 玉 (xz 一 名 人 0, 通 常 的 零 假设 为 吾 ,:0 = 0. 按照 本 章 的 记号 ,我 们 有 下 面 3 个 定理 . 

定理 3.4 ”如果 零 假设 五 :8 一 0 成立 , 则 S(X ,er ,SCX,) 独立 于 CR.+ ,0 ,RR,+). 

证 明 事实 上 , 因为 (CRT,…,R,*) 是 ||,…,|X,| 的 函数 ,而 出 自 随机 样本 的 (SCX,》， 
| 生生 一 1 光洁 是 互相 独立 的 对 子 , 因 此 我 们 只 要 证 明 3(CX) 和 | 发 ,| 是 于 相 独 立 的 即 可 . 事 
实 上 ， 1 


P(S(X) 一 1 Xr) POTLKET) TF) FO = Fr) 一， 3 


El POSK) = DPC < 2) 9 
下 面 的 定理 3. 5 和 定理 3.4 平行 ,读者 可 自己 验证 ， 
定理 3, 5 如 果 零 假设 la:6 一 人 成 立 , 则 SK) ' "ICN,) 独立 于 (DD， ye ,D.). 
定理 3.6 如 果 零 假设 再 ,:0 一 0 成 立 , 则 多 )，… ,人 ,是 独立 同 分 布 的 ,其 分 布 为 已 (WP, 一 
0) = POP = 1) 一 到 
证 明 令 已 一 【1 12, ,dd = (ds ds,), 
POW, 二 ww = ww) 


= P(X = wi SXp) = wlD = dP(D = q) 
a 


= DPCKR) = wd Ke) = w IPD = q) 
-=| 六! DP 三 :二 二 | 
因此 有 POWs = J[POW, ~ ww) 及 PO = wi) = 二. 
3.3 Wilcoxon 符号 秩 检验 
在 这 一 节 ,我 们 考虑 前 面 提 到 的 检验 问题 . 假定 iid 样本 来 自 对 称 分 布 总 体 , 即 义 ,,… ,X。 


一 Ar 一 及 ,FPCr)E 必需 要 检验 的 是 召 ,:9 = 0, 这 里 用 前 面 定义 的 Wilcoxon 符号 秩 统计 量 
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W' 来 检验 . 直观 上 ,WT+ 如 太 大 或 太 小 都 对 零 假 设 提 出 挑战 . 时 进 行 更 精确 的 检验 ,需要 死 - 
的 分 布 : 以 对 其 实际 租 + 求 志 什 (POU 多 -1 沁 四 或 POW- > 让) 或 POV"7 < 之 t) 依 不 同 的 H 而 


定 ), 因为 W! = 》)jW,, 由 前 面 的 关于 W, 分 布 的 定理 ,W- 是 独立 同 分 布 的 {二 项 分 布 B(1， 


J 


到) 随机 变量 的 线性 组 合 , 显 然 独立 于 总 体 分 布 . 虽然 我 们 无 法 用 一 个 简单 表达 式 写 出 环 ” 的 


分 布 , 代 到 1 的 分 布 实际 上 是 很 简单 的 
下 面 一 个 例子 表明 如 何 对 简单 情况 直接 算出 W* 的 值 及 有 关 的 概率 . 
例 3.2 假定 2=3, 则 所 有 可 能 的 绝对 和 值 的 秩 为 1,2,3, 所 有 可 能 的 正 负 号 的 组 合 为 2: = 


8 种 . 在 零 假设 下 ,每 种 可 能 的 概率 为 妃 一 襄 . 用 下 天 来 表示 所 有 可 能 的 组 合 及 相应 W” 的 值 ， 
左边 的 1,2,3 为 所 有 可 能 的 牙 . 


上 表 中 ,实现 每 一 列 的 概率 为 汪 . 可 见 ,PW+ 一 一 十, 汪 一 0,1,2,415161 及 PCW 一 
3) = 训 = i. 如 果 扎 ;为 厂 ">> 碳 :而 三 * 的 观察 值 为 5, 则 p 什 为 PC(Wt+ 守 5) 一 PCW? 一 5) 
+ PCW+ = 6) 二 地 .这 个 思 什 太 大 ,不 能 拒绝 零 假设 . 事实 上 ,因为 这 个 样本 太 小 ,对 任何 W- 
的 值 都 不 大 可 能 拒 移 零 假设 , 换 句 话说 ,对 于 如 此 小 的 样本 , 作 任何 推断 的 证 所 都 不 足 . 
现在 我 们 给 出 在 一 般 情 况 下 计算 W” 的 零 分 布 的 方法 ,该 方法 是 编写 简单 计算 机 程序 的 
基础 , 首先 找 出 Wt 的 矩 母 函 数 M(), 注意 ,下 而 的 期 望 是 对 有 零 候 设 而 言 . 对 任意 的 j, 有 
1 


ElexpltiWi)) = 3 


exp(0) 十 辣 exp(e 一 二 (1 + exp C27)) 
因而 
MI() =E(expl(tW+)) = E(explt DjW))) 
i 


= TIEcexpC(w))) = 1a + 6’) 
于 2=1 
按 矩 母 函 数 的 性 质 ， 如 果 玫 CL) 二 ay 十 Qa:e’ 十 ase*” 十 ; 则 对 j 关 01， ,有 PW! 一 用 一 Wj, 
当 n 二 2 时 ， 
人 L 十 eD(1L 二 ez》 1ietete 
中 入 
我 们 有 下 表 : 其 第 一 行 是 MG) 的 指数 睾 , 第 二 行 是 相应 于 第 一 行 的 系数 ( 差 一 个 因子 二 ). 


M(t) = 
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-出 此 可 得 
PGY: 一 .= POY+= 2) 一 P(W+ 一 3) 一 开 
当 n 3 时 ， 


< 2 型 
站 上 )CL 十 e2) 


我 们 有 下 表 : 其 第 一 行 是 Mt 的 指数 敌 , 第 二 行 是 前 表 的 结果 ,是 由 第 三 个 因子 (1 十 e* 中 第 
一 项 ( 即 1) 乘 头 两 项 而 得 . 第 三 行 又 是 第 二 行 的 重复 ,但 右 移 三 位 ,是 由 第 三 个 因子 中 第 二 项 
《 即 e>) 乘 前 面 项 而 得 , 因 尾 三 次 知 , 放 位 移 三 位 第 四 行 是 第 二 三 两 行 的 和 , 即 第 一 行 的 相应 
的 系数 ( 差 一 个 因子 喜 )， 


0 1 2 3 4 5 6 
1 

1 1 1 1 
1 1 1 1 1 


由 此 得 到 和 上 例 样 的 结果 : 即 P(W- 一介 一 于， 下 二 01,2,4:5,6 及 P(W+ 一 3) 一 


be [Se 
| 


于 类 似 地 ,可 有 三 对 于 n = 4 时 的 表 ; 


一 a 


6 

1 

b < 
2 2 


它 只 用 了 前 一 个 表 的 结果 . 我 们 因而 可 以 很 容易 地 编 出 个 短小 的 子 程序 ,以 对 任意 的 * 值 
去 计算 W- 的 概率 . 当然 ,许多 书 上 提供 了 W' 的 分 布 表 . 但 在 计算 机 上 还 是 用 子 程序 计算 较 
方便 ,本 书 的 附 表 3 给 出 了 部 分 零 分 布 表 . 

除了 用 计算 机 算 WW' 的 分 布 之 外 ,还 可 用 正 态 近似 ,此 时 我 们 需要 其 均值 和 方差. 由 上 节 
的 定理 , 易 得 (这 里 和 以 下 的 期 望 和 方差 都 是 在 零 假设 下 取 的 ) 


nln 一 1) 
4 


EW+) = ED UW) = > 之 7 一 
Var(W+) = Var 5) CW) = 15 Cn 十 De 十 1) 
由 中 心 极 限定 理 , 在 大 时 ,可 近似 地 认为 


由 
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好 -一 ei 1) . 
oN(0,1) 
/fe + 1) C2n + 1) 
24 
而 对 于 单 边 检验 召 ,;8 = 0 及 1:9 > 0 及 水 平 a, 恰 验 的 临界 值 为 
rtD 0strz ftD(ntl) 
4 . 2 24 
除 正 态 近似 之 外 ,还 有 一 些 其 它 的 对 于 概率 PC(H 一 < 委 的 近似 ,可 参阅 有 关 资 料 ， 


对 于 上 面 的 正 态 近似, 也 可 以 如 下 表示 ; 当 +» 很 大 时 ,有 
Es ntn +1) 
4 


PW+Eh) 
at Dnt | 
24 


如 利用 连续 性 修改 (eontinuity correction), 则 有 如 下 的 近似 


4 十 0.5 一 2 二 | 


PRTD 一 -一 一 一 一 一 | 
jz 人 十])C2m 十]) | 
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其 中 @C。) 为 标准 正 态 分 布 函 数 . 我 们 对 上 面 的 近似 进行 了 数字 比较 , 见 下 表 ， 
当 寻 一 10 时 与 2 一 20 时 分 别 为 


天 3 5 11 14 2 
精确 值 : 0. 0049 0. 0098 0.0527 0.0967* 0, -611 
连续 修改 0.0072 0,0124 0.0515 0.0926 -0.7.541 

无 连续 修改 ，0.00863 0.0109 0.0463 0.0814 0,.423 


37 43 61 70 ? 

0.0047 0.0096 0.0527 0102 0.1471 
0.0059 0.0108 0.0522 0.0989 0.1437 
0.0055 0.0103 0.0502 0.0957 


连续 修改 
无 连续 修改 


也 上 两 个 胡可 以 看 出 ,近似 效果 还 是 不 错 的 ,尤其 是 连续 性 修改 之 后 . 

例 3.3 在 8 卖 土 地 上 同时 试 种 新 . 旧 两 种 小 麦 , 而 我 们 知道 旧 小 麦 物 平 均 亩 产 景 为 
180( 公 斤 / 育 ) ,而 六 小 麦 产量 为 :209,200,179,230,170,195,210,155. 试问 ,新 产品 小 考 有 无 
推广 的 必要 ? 

对 于 此 题 ,我 们 不 妨 假 设 小 麦 产 量 的 分 布 为 对 称 的 , 则 问题 归结 为 如 下 共 检 验 ， 

H,:0 = 180r Hi:0 > 180 
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此 时 我 们 可 以 用 WWilecoxon 符号 秩 检验 . 令 Y; 一 X 一 180，: = 1 8, 经 计算 知 


Y, Y, 
29 20 一 1 50 
3 一 1 S* 一 1 9 二 9 S,=1 
R)' =6 i! Rt==1 R=8 
区 Y YY, Y 
一 10 15 30 一 25 
Ss=0 5;= Si=l Si 一 0 
R;, =2 Re' =3 R1+ =7 Rs =5 


则 Wilcoxon 符号 秩 统 计量 W+ 一 》)S;R,- = 28, 查 附 表 3 得 其 检验 的 p 什 为 Pir (W 闫 28) = 
0.0977 ,如 取 a 二 06.05, 则 我 们 不 能 护 绝 原 假 设 . 

对 于 成 对 数据 ,我 们 仍然 可 以 用 Wilcoxon 符号 秩 检 验 进 行 , 望 恋 者 自己 考虑 . 

当 总 体 分 布 函 数 并 非 妈 外 连续 时 ,样本 中 可 能 有 相等 的 出 现 ,我 们 说 存在 着 结 . 例如 , 设 
有 4 个 样本 ,其 依次 为 :1.3,1.7,1.7,2,5 把 它们 由 小 到 大 排序 之 后 知道 ,R, = 1,R。 一 4, 而 
(R, Ra) 可 能 取 (2.3) 也 能 取 (3,2) ,这 样 就 有 一 个 取 法 问题 . 一 般 地 ,有 两 种 方法 处 理 该 问题 : 
一 是 随机 化 法 ; 二 是 平均 秩 法 (midrank)( 还 有 其 它 方法 , 详 见 L9]). 所 请 随机 化 法 , 即 是 对 同一 
结 内 的 样本 , 按 该 结 所 占据 的 秩 , 用 等 概率 的 方法 配 秩 . 对 于 上 面 的 例子 ,有 PUCR,,R) = 《2， 
3)) 二 PCCRssRs) = (3,2)) 一 垃 . 随 机 化 方法 的 最 大 优点 是 定理 3. 3, 定 理 3. 4, 定 理 3.5, 定 
理 3.6 的 结论 仍 成 立 , 这 对 讨论 某 些 统计 量 的 确切 分 布 是 有 很 大 好 处 的 ,但 是 ,由 于 额外 地 加 
入 了 一 个 随机 化 ,导致 它 有 一 个 致命 的 缺点 :结果 内 人 而 异 ,不 可 重复 . 我 们 看 一 个 例子 . 

例 3.4 设 有 9 个 翌 本 如 下 ， 

i | 1 


2 3 4 5 6 7 8 9 
X57 4 3 5 75 -65 
Sio 1 1 1 10 101 
R| 2 1 7 


其 中 X.| 一 大 一 和 一 X 一 5 其 秩 可 了 (034,5,6) 中 的 他 一 排列 :X: == |X | = 7, 其 秩 可 
取 (8,9) 中 的 任 一 排 刘 . 如 果 Wilcoxon 符号 秩 检 验 的 拒绝 域 为 {H 兰 26}, 则 按 随机 化 方法 取 


甲 计算 得 W+ = 27 之 26; 拒 缮 右 1; 而 乙 计算 得 久 + 二 23 过 26:, 不 能 拒绝 i,. 这 显然 是 不 能 接 
受 的 . 
基于 上 面 随机 化 方法 定 秩 的 缺点 ,我 们 一 般 都 采用 下 面 要 讲 的 平均 秩 法 . 为 此 我 们 引进 一 
个 结 统 计 芝 的 概念 ， 
设 样本 天 ,，…,X, 由 小 到 大 如 下 排列 : 
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有 一 区 一 … 一 Xt i 
Xe = = Xe jr "< tt 二 "二 Rett 
其 中 CT st 是 £ ee 一 丸 , 则 称 (z 9 为 结 统计 量 ， 


对 于 上 一 定义 ,我 们 应 注意 到 ， 
1” g 是 样本 中 结 的 个 数 ,为 随机 的 ; 
2” 是 第 # 个 结 的 长 度 ,为 随机 的 ; 
3” 对 于 样本 XX,,…,X,, 上 述 结 统 计量 将 其 分 成 g 个 组 , 按 平 均 秩 方法 定 秩 , 其 第 : 组 的 
样本 均 取 秩 为 
=- 二 十 的 一 三 十 司 十 而 二 让 古 


™ km l 


于 是 个 样本 只 取 g 个 不 同 的 秩 , 是 唯一 的 ,避免 了 随机 化 方法 的 结果 不 可 重复 性 . 但 是 
这 样 得 到 的 样本 秩 有 可 能 是 非 整数 , 故 前 面 讲 的 定理 3. 3 等 并 不 成 立 ， 这 就 导致 其 理论 处 理 不 
容易 ,但 为 了 结论 的 科学 性 ,我 们 都 是 利用 平均 秩 法 ， 
下 面 我 们 以 一 个 例子 说 明 , 当 有 结存 在 时 ,如 何 求 Wilcoxon 符号 秩 统计 量 的 零 分 布 . 
例 3.5 设 有 4 个 数据 如 下 ， 
X, 1 2 —1 2 
平均 秩 | 4.5 6.5 45 6.5 
符号 秩 | 十 4.5 十 6.5 一 4.5 十 6.5 
则 Wilcoxon 符 导 秩 统计 量 W-== 4.5 十 6.5 十 6.5= 17.5. 由 于 其 共有 2 一 16 个 不 朵 的 符号 
秩 , 故 其 零 分 布 为 


PW =&) 

a eS 

一 十 一 一 4.5 2/16 
一 一 十 一 6.5 2/16 
一 一 一 十 6.5 2716 
二 十 一 一 9 1/16 
十 一 一 一 11 4/16 
| 11 4/16 
ee ee 11 d/16 
一 十 一 十 | 11 4/16 
oe 13 1/16 
i 15.5 | 2/16 
目下 15,5 2716 
一 十 十 十 17. 5 2716 
中 17. 5 2716 
十 十 十 十 22 1/16 
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则 检验 的 值 为 Pa OW" 实 17,5) 一 
虽然 对 于 有 结 的 Wilcoxon 符号 黎 统 计量 的 零 分 布 无 表 可 查 , 但 是 当 z= 很 大 时 , 它 有 如 下 

的 央 近 正 态 性 :; 
Wr— En (Wt*) « 


—=N(0,1) 
W Yarm (W'!) 


n(n 1)— dotldot 1) 
4 


其 中 
En (W+) = 


Ye) 
yor, Wr) + Dn todd Dd + 站 
. 24 48 
这 里 (7 ,*… ,rs) 为 结 统计 量 ,de 是 差 值 为 等 的 个 数 . 此 结论 的 证 明 见 [141. 

例 3.6 在 研究 维生素 B 对 学 习 影 响 的 过 程 中 ,从 孤儿 院 中 随机 地 抽取 ?4 名 儿童 ,并 随 
机 地 把 他 们 分 成 37 对 ,从 每 一 对 中 随机 地 选取 一 个 服用 维生素 3 , 另 一 个 服用 一 种 无 药 效 的 
安奈 剂 . 服用 六 周 后 ,其 中 12 对 儿童 的 智商 (IQ) 值 增加 如 下 : 
8 11 14 17 20 23 26 
吃 Vi|14 18 2 4 —5 14 一 3 一 1 1 1 
9 0 —413 3 
-8 9 5 -7 5 —3 3 —123 
8 -1011 6.5—96.5—4 4 一 12 4 


符号 | 十 一 十 十 守 二 十 一 


试问 服用 维生素 &, 对 提高 智商 是 否 有 影响 ? 
对 上 面 的 数据 ,其 结 统计 量 为 


= lm = l= 二 m= ld, = 1 


又 由 于 
W*= 40 


EC(W+) 一 (12 X13—1X2)= 38.5 
Var(W+) = 去 (2 x 13 x 25 一 1X2X3) 一 直 (2 一 2 3 一 5) = 16.625 
则 检验 葛 p 值 近似 地 等 于 
40 — 38.5 


PWt> 40)=1— 由 | Toa 
故 认 为 维生素 Bi 对 TQ 的 提高 无 多 大 帮助 . 


| = 0. 453 


3.4 点 估计 和 区 间 估计 


在 上 一 节 的 楚 测 上 , 我 们 要 给 出 基于 某 些 检验 统计 晤 的 关于 对 称 中 心 8 的 点 信 计 和 区 加 
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估计 . 首先 我 们 把 样本 和 ，… ,入 , 扩 大 一 个 .最 简单 的 扩大 就 是 加 入 每 两 个 数 的 平均 ,这 就 是 所 
诗 的 Walsh 平均 (Walsh averages). 这 于 于 个 平均 是 一， i <j. 我 们 有 以 下 很 方便 

定理 3.7 ”假设 分 布 函 数 下 (z) € 02,, 习 太 1，…, 久 ~~ 让 (zx)， 则 Wilcoxon 符号 秩 统 计量 
你 -等 于 正 的 Walsh 平均 之 数目 : 


开 一 开 


Xt 
2 
证 明 用 XX,,…,X,, 表示 正 的 梯 本 点 , 画 半 开 区 间 了 一 《一 X, ,X,], 显然 的 秩 ( 按 绝 
对 值 ) R," 等 于 在 十 中 的 册 有 样本 点 数 . 而 五 中 所 有 样本 点 和 关 ; 的 Walsh 平均 都 大 于 0. 因 
此 有 + 等 于 大 于 0 的 由 中 样本 点 和 总 所 形成 的 Walsh 平均 的 数目 , 一 般 地 ,我 们 可 构造 二 ， 
二 11…: 户 ;而 和 且 R' 为 大 于 0 的 由 二 中 祥 本 点 和 Xi 所 形成 的 Walsh 平均 的 数目 .因为 W? 
等 于 这 些 Ri+ 的 和 ,所 以 也 等 于 所 有 大 于 0 的 Walsh 平均 的 数目 . E 
上 面 的 思路 导致 定义 统计 量 
Wr () 一 大 (车 计 守 > 0 生计 


用 WW! (6,) 作为 检验 古 ;:6 二 色 对 厅 .:86 放 名 的 统计 量 , 则 检验 屁 泡 偏 的 . (无 偏 检验 ;在 瑟 , 下， 
把 绝 零 假设 的 概率 不 大 于 水 平 ,而 在 瑟 ; 下 ,拒绝 零 假 设 的 概率 不 小 于 o. ) 


当 样 本 ,XX Fr 一 ,F(z) € Qs 时 ,我 们 用 Walsh 平均 的 中 位 数 


+ 8 = median 2 三 Tal 


| 
作为 8 的 佑 计量 , 称 为 基于 Wilcoxon 符号 秩 统计 量 表 + 的 关于 8 的 Hodges-Lehmann 估计 量 
《Hi 估计 景 ). 

相应 于 更 广泛 的 窒 验 统计 量 , 我 们 可 定义 一 般 的 Hodges-Lehmann 佑 计量. 假设 V 是 一 个 
检验 统计 量 ( 零 假设 及,,9 = 0) ,统计 量 VC0) 是 把 V 中 的 天; 换 成 芭 , 一 8 而 得 .仍然 假定 VC6) 
是 8 的 非 增 函 数 , 而 月 在 零 假设 下 ,V 二 VV(0) 对 称 于 某 po. 对 于 来 自 F(z) F(z 一 的 Es) 的 
随机 样本 下,,… , 苹 ., 定 义 

O° SupiOVOOS> m0" =in{{f.V < ph) 


>01j 


骨 
a: 一 再 
ss 2 


称 为 的 Hodges-Lehmann 估计 量 , 以 符号 统计 量 为 例 ， 当 n 为 偶数 时 8" = X31,9"* 二 

芝 训 tn} 当 4 为 夷 数 时 97 一 9'* 一 六 | 中). 因此 ,二 median{Xi1t 二 1,…,nj, 即 样本 中 位 数 ，; 

对 Wilcoxon 符号 秩 统计 量 凡 + ,有 让 = "ea 位 二 7,; j= 1 | ,已 在 前 商 引 进 , 特 

别 地 , 当 n 一 3 时 局 一 TX 十 28:5 十 站) ;从 此 可 以 看 出 ,Hodges-Lehmann 估计 对 某 些 

样 木 有 所 侧 午 ,同时 又 兼顾 所 有 样本 中 的 信息 ; 对 于 传统 的 上 统计 量 ,8 一 叉 , 即 样本 均值 . 
关于 Hodges-Lehmann 个 计 的 一 些 分 布 件 质 ,可 参见 习题 5,6, 详 纳 的 请 见 [7], 下面 我 们 

给 出 -个 对 称 性 的 结论 ， 
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定理 3.8 ”如 果 总 体 分 布 Ptz 一 从 E 0Q;, 则 Hodges-Lehmann 佑 计量 如 的 分 布 关于 9 对 
称 . 

证 明 因为 Tatd x) 一 Pu 一 ce) ,我 们 只 需 考虑 0 一 0 的 情况 . 这 时 和 一 (RX. 
X,) 和 -有 二 《一 区 .mv， 站 XX,) 同 分 布 .因此 ,OCX) 和 6 一 入 ) 同 分 布 ， 从 8 的 定义 ,8( 一 了 ) 
一 一 9(X), 即 9 与 一 0 间 分 布 . OD 

下 面 我 们 再 考虑 一 个 更 广义 的 统计 量 了 (的 的 性 质 , 它 定义 为 

V0) = ya(R (OSH OD YasSX) = Thaw, 
rt 1~=] 


j= ot 


这 里 Ri™ (四 是 |X; 一 如 在 |X1 一 9， -0| 中 的 蔷 , 其 它 符号 是 以 前 介绍 过 的 .V (6) 
有 下 而 的 性 质 ,该 定 再 的 证 明 直观 性 很 强 ， es 己 验证 

定理 3.9 Vi0) 是 9 的 非 增 矿 梯 函 数 ， 它 在 每 个 XX 点 下 降 41, 而 在 一 一 y 
下 降 a;_ i a 


注 :1. 如 果 随 机 样本 ,,…,X 来 自 Fz 一 0),FCz) € Qs. 则 VC9) 关于 六 全 对 称 
i=1. 


Xn 和 上 (> 有 点 


2， Hodges-Lehmann 估计 量 也 可 被 关系 了 ( 信 = De > 所 决定 
用 Walsh 平均 ,还 可 得 到 区 间 估 计 . 今 玉 4,*… 为 升 备 排 列 的 Walsh 平均 (N = 


PWt<a) = = PW EEN- a) 


则 
[We ww》 
为 (1 一 100% 置信 区 间 . 这 里 a 始 可 用 W* 的 分 布 算 ,也 吕 以 有 


天 一 一 一 
en  ，、- ,fntnt 1)(2n+ 1) 
Qa 4 0.5 Zi et 


直面 我 们 讲 卫 有关 Hodges-Lehtnann 估计 的 表达 式 及 分 布 性 质 , 下 面 则 给 出 基于 
Wileoxon 符号 秩 统计 量 的 HL 佑 计 


.= median {2 十 


1 2 

的 手工 计算 方法 ,以 一 个 例子 说 明 ， 

例 3.7 设 样 本 为 : 62,70,74,75,77,80,83,85,88. 下 面 我 们 用 图 示 法 求 基 于 Wileoxon 
符号 秩 统计 其 WW+ 的 关于 9 的 HL 佑 计 各 ,此 时 NN = 45. 

1” 如 图 3.1, 在 一 个 蜂 角 坐 林 系 上 晤 直线 y》 = zi; 

2” 在 直线 y= x 上 ,点 上 样本 点 (Xi,X) 之 一 1 

3 在 爸 标 系 上 标 出 (X;,X)) ,i 闫 j, 则 Walsh ee 的 x+,y 坐标 的 平均 值 
Dd 

2 


jl 


天 
jj 


4” 作 一 条 惰 直 于 对 角 线 y == 工 的 直线 ,使 之 从 原点 名 上 移动 (或 考 作 另 一 条 垂直 于 
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y = z 的 直线 4 使 之 从 上 向 下 移动) 直到 第、 并 -= 23 个 点 沙 在 志 线 AC 或 者 全 上 ) ,此 时 直 


. 线 避 上 有 两 点 :(80,75),(85,70), 任 取 其 一 的 横 . 纵 坐标 的 绊 均 值 序 为 HL 估计 
.0+75 ， 85 十 70 


77, 5 一 


2 2 


0 7477 808 | 
| 图 3.1 HL 估计 的 计算 
当 N 为 偶数 时 , 则 移动 (或 者 二), 找 其 第 们 与 人 十 1 个 点 计算 这 两 点 的 Walsh 平均 后 ,再 求 
平均 即 可 . 当 有 结存 在 时 ,在 坐标 系 的 点 上 注 明 结 的 长 度 即 可 ， 
前 面 我 们 仅 介绍 了 在 9 -0 时 多 的 分 布 . 下 而 考虑 随机 样本 X, ，… ,X. 来 自 “ 个 任意 连 
续 分 布 瑟 (z). 令 
Pi= P(X > 0) pz = P(X 十 X. 记 0) 
pa P(X — X; > 0,X)> 0) p= 万 (和 KR; > 0.X) + Xi > 0) 
定理 3. 10 ”对 千 Wilcoxon 符号 秩 统 计量 W*， 


RW-) 一 ap + dp, 


n(n CO— 1) 
2 
+ natn CO— Dp;— pps) — nln ~ 1)(n — 2)(p, — pi) 
证 明 见 [9]. 定理 3. 10 在 考虑 检验 的 势 及 效率 等 问题 时 有 用 . 读者 可 验证 前 面 在 9 一 0 时 
的 结果 是 这 个 结果 的 特殊 情况 ， 


Var(W+) 一 ?ztzl — p.) 一 ps 


3.5 渐 近 相对 效率 及 比较 


假设 忌 ，… 如。 二 PC 一 及 ,FFCz) E 全 .根据 第 - 章 , 只 要 Pitman 条 件 满 是 ,我们 可 通过 
求 x/.(0) 和 4a.(0) 来 找到 一 个 统计 量 的 效率 ,从 而 可 用 不 同 统计 量 的 效率 得 到 渐 近 相对 效率 
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(ARE), 下面 举 几 个 例 了 ,我 们 用 7(z) 表示 Cx) 的 概率 密度 国 数 . 
1， 记 符 号 统计 量 S = #(X, 守 0,1 扩 ?7 太 n),; 有 
E(S) = n(l — F{— )), VarfS) = ntl — F(t— MIF) 


9 肥 jp.(9) 二 ECS) 及 208) 二 Var(tS), 于 是 有 
res(0) = nf(0), a2(0) = 也， cs 一 27(0) 


这 里 cs 表示 符号 统计 量 的 效率 ， 
2. 对 Wilcoxon 符号 秩 统 计量 w-= >)ARiSCX)) ,有 
2=1 
EW = ap ase Dp Var(W') 一 et lt 
可 取 0o2(9) = Yar(W*+) 及 


pO) = ECW+) nll 一 下 (一 0)) 十 za — FC x— fr — dr 
有 WO0) =nf (0) — nn 一 DF)dz, c= 二 “本 jeod 
这 里 cw+ 表示 Wilcoxon 管 号 秩 统 计量 的 效率 

3， 对 传统 的 :统计 量 , 记 cr = [ef nydz. 取 

DD = A ax(0) 一 1 
了 

有 c= 元 .这 里 表示 统计 量 的 效率 ， 

由 ARE 的 定义 ,ews = 总 , 则 我 们 有 上 述 三 个 统计 量 之 间 的 ARE， 


2 
ARE(S 有 一 -0) 


2 


cf 3 [Prevazl s 


2 
ARE(S.0) 一 时 = 4o3F(0》 


ARECT+ ,fy = 客 - 一 125; | Permdz| 
因此 , 对 任意 给 定 的 分 布 ,我 们 都 可 计算 上 画 的 ARE, 见 下 家 ; 


分 布 [一 1,1) N(0,1} logistic 重 指数 
exp| 到 一 la 
密度 二 1(—1,1) 2) ez(1 十 ez 本 
V2T 
了 
ARE(W+ ,T,;F) 1 3 ba 3 
元 9 
; 1 2 了 2 
AREKS。 ,T,sF) 可 二 Ee 2 
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干 面 例子 讨论 了 正 态 公布 有 不 同 往 虚 "污染 ?时 ,AREW ,的 不 同 结 果 ， 
例 3.8 假定 随机 样本 关 /,…,XX. 来 自 P = (1 一 ej)B(r) 十 ep(3). 这 里 更 (z) 为 N(0,1) 
的 分 布 晓 数 . 易 见 


Cl Ee EC1 —e) ; 
ez)dz 一 十 十 ? »=1 和 十 8 
(i 
由 上 面 公式 得 


和 RECT 一 


CL 十 二 | — ey): 玉生 证 28t1 一 e 
VE J 


ARE(WT ,7) 0,955 1.009 1.108 1,196 1.301 1.373 1,497 


从 上 上面 两 个 表 可 以 看 出 ,只 用 到 样本 中 大 小 次 序 方面 传 息 的 Wilcoxon 符号 秩 检验 、 符 号 
检验 和 : 检验 最 具有 优势 的 情况 , 即 书 人 N(0.1) 时 相 比 ,效率 并 不 算 差 . 对 于 其 它 几 个 上 检验 
不 占 优 势 的 情况 , 即 玉 不 为 正 态 时 ,W,' 基 木 上 都 优 十 上 检验 , 但 在 总 体 分 布 偏离 正 态 时 ,偏离 
越 多 ,Wilcoxon 符号 秩 检验 就 越 好 . 可 以 证 明 , 对 任何 总 体 分 布 .Wilcoxon 符号 秩 检 验 对 上 恰 验 
的 渐 近 相对 效率 绝 六 少 于 0. 864 , 详 见 阅读 知识 一 

我 们 以 前 说 过 , 一 个 检验 统计 量 及 与 其 相 联 的 估计 最 有 同样 的 效率 . 上 面 的 符号 统计 量 、 
Wilcoxon 符号 秩 统 秆 量 和 :统计 量 分 别 相 应 于 样本 中 位 数 . Walsh 平均 的 中 位 数 及 样本 均值 . 
这 些 者 是 Hodges-Lehmann 估计 量 的 特例 ,一 般 地 有 下 面 的 估计 效率 ec 的 定理 ， 

定理 3.11 候 设 0 为 相应 于 满足 Pitman 条 件 的 统计 量 Y 的 Hodges-Lebhmann 估计 量 . 如 
果 Y 的 效率 为 <, 则 

limP( Vn — 0 <a) = Blac) 


即 浙 近 地 有 Vn 介 一 想 ~ NN(0,c7). 

证 明 见 [14,， 

平 表 为 上 检验 人 ,符号 检验 (5S),Wilcoxon 符号 秩 检验 ( W+) 之 间 的 ARE 的 范围 ,其 中 共 
星 号 (* ) 的 为 分 布 是 非 单 峰 时 的 结果 ， 


t - S i 人 
| a > 


: | (0,3]i(0co | jo, 


125 | 
108, 


5 [00) C0,00)" — [车 ,so)it0,co)， 


(0,3];(0,50)° 二 


Ww | co 
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例如 ， 由 上 表 可 看 出 0. 864 一 5 < 之 ARE(WT ,tf) 之 oo, 无 穷 是 在 ki 分 布 时 出 现 .很 
明显 ,在 分 布 上 术 知 时 , 非 参 数 方法 有 很 大 的 优越 性 . 在 用 Pitman 渐 近 由 对 效率 时 ,要 注意 这 个 


概念 只 对 大 的 样本 适用 ,并 日 它 只 局 限 在 互 , 点 的 一 个 邻 域 中 比较 ， 


3.6 阅读 知识 


3.6.1 符号 秩 的 一 般 分 布 

前 面 的 定理 2. 4 一 3. 6, 叙 述 了 符号 秩 的 确切 分 布 , 但 是 它们 还 只 是 给 出 了 绝对 值 拌 本 秩 
的 零 分 布 ,而 下 一 定理 对 符号 秩 的 分 布 刻画 更 加 时 了， 

定理 3.12 设 Xi,…,X, 一 FCz) E 06, 又 设 日 二 7(X > 0, 是 随机 的 ,如 果 QQ 二 g， 
则 5S) << … < 表示 全 的 符号 秩 由 小 到 大 的 排序 ,对 于 4 = 0,1,.* ,7 有 


“1 Ff 四 

这 1 
PQ GS sd ee 

“0, 否则 


此 定理 的 证 明 并 不 准 , 读 者 自己 作为 练习 试 一 试 或 见 [7]. 


3.6.2 Wileoxon 符号 秩 统计 量 的 极限 分 布 的 证 明 

关于 wilcoxon 符号 秩 统计 量 的 极限 分 布 的 让 明 , 可 用 第 八 章 讲 的 一 般 秩 分 布 理 论 . 下面 
我 们 先 玫 其 与 U 统计 量 的 关系 给 出 证 明 . 

我 们 回忆 一 下 例 1>6 中 的 单 样本 UU 统计 量 可 以 表示 为 (五 。 下 ): 


让 
四 
现在 看 来 R' 就 是 本 章 讲 的 符号 秩 ,r = Dx, 0) 二 5。,1+ 就 是 上 章 的 符号 秩 综 计 鞭 . 即 寿 


Ho 下 
Ww.+= | js 
2 
又 因为 在 五 。 下 
EsU. = PX 十 和 > 0) 一半 ES 区 
则 在 五 。 下 ,由 定 埋 1, 7 知道 


ER 
总 二 
valv, 一 言 | 一 N|0 | 


叉 由 于 让 He 下 


ey /nl|0 ee 
PR 
21 2 
| ey 十 1) 
有 关 一 0 出 一 一 人 与 V[o。 草 网 分 布 ,所 
| ,| 四 
Ye |w. ~ NO, 
2 
又 向 于 
nn + D Con + 1D) 
24 
, ~1 
| 
ye 
3 
则 
W,+— et 了 
一 一 一 (01) 


{n(n 了 Iya 1) 
24 
3.6.3 ARE(W,+ ,tf; 玉 ) 实 0,864 的 证 明 
在 8 3.5 中 我 们 指出 
ARE(W, 1;F) 2 0.864 
这 是 Hodges-Lehmann 于 1955 年 用 数学 分 析 方 法 证 明 的 ,我 们 简 述 于 下 . 首先 假设 总 体 分 布 
函数 满足 条 件 
1” F(z) 有 概率 密度 函数 f(x) 日 f(x) 在 原点 连续 ,ro) > 0， 并 且 | =7ca)dx 与 
jrydx 均 存在 .有 限 : 
2 F(z) 关于 原点 对 称 ， 
不 妨 设 总 体 方 益 or 二 1, 则 要 证 明 
| 12| Jr endz) " > 0. 864 


3 
20 了 


| Pear 一 fe — folz) 十 folz) dx 


事实 上 , 取 f(x) = 上 一 2)TI 人 二 Y5), 则 


= GD - for ydzt [feedz + 2 fn Fr) — APcnndz 


又 因为 
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3 
2(z)dz = 
[rar =- 
fcr)dz = i 刘 ea 一 za)7(z)dz 
>| -一 oe (5 一 zz)JCzr)dz 一 二 这 站 fou: Cx) dx 
册 
A — f(r)dr>0 
所 以 
[ f(t)dr 区 上 (fr -Pr)zdz 二 一 3 > 一 3 
= 人 -= 5v5 53 
即 
a 本 
1 引 | frydz) 12 0.86 
3.7 习 题 
1. 证 明 推 论 3,1. 
2. ”证 明 推 论 3.2. 
3. 对 于 密度 函数 
(5 — <)， zl< 5 
fr) -二 人 ve 
否则 
让 出 


ARE CW,+ ,T,,F) = 0. 864 
(这 说 明 0. 864 的 上 界 能 达到 ). 
4， 证 明 可 ijeoxon 符号 牧 统 计量 WW,+ 的 零 分 布 关 于 其 期 望 对 你 . 
5， 设 包 Xi,… ,XX.) 为 基于 检验 统计 量 了 (XI ，……,X,)》 的 关于 4 的 HL 估计 (此 统计 量 满 足 所 禹 条 件 ) ,证 
明 对 十 任意 的 志和 义 ,,…',X， 
(| 十 天 十 在 一 点 十 全 入 各， 
6 设 X…,X. 一 Fr) 分布 男 数 (z) 连续 是 关于 原点 对 称 ,(X，… ,XX,) 为 满足 HL 体 计 条 件 的 愉 
监 统 计量 :07A，…) 为 基于 VCX ,和 。) 关于 8 的 HL 估计 . 如 对 于 任何 的 六 1，… ,XVCIC，…，X.) 十 
VE 一 2) 是 一 个 奇 统计 量 且 关于 9 对称 
7.、 设 半 为 :个 随机 变 基 ,我 们 称 导 是 关上 基点 5 加 权 对 称 的 ,如 果 存 在 常数 4, 使 
PAX>r- a) = P(X 一 z)，VYz>>0 
(1) 如 果 忆 关于 某 常数 ec 可 权 对 称 , 则 在 P(X 之 眉 记 0 下 ,有 


_ PAX>e) 
P(X <e) 


(2) 证 明 在 9 之 P(X 之 c) 一 PCX 去 c) 之 1 条 件 下 ,随机 变量 |X 一 c| 和 S$。 = 了 CX > c) 是 独立 的 . 
8.。 设 多 + 为 多 i 山 coxon 符号 秩 统 计量 , 计 骨 在 ,:9 一 0 下 ， 
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WwW- Fv, 
;1 


其 中 VV ,… ,VY 是 相 态 独立 的 几 PV 二 刘 = PW;=='0) = 请 Ee 


3， 对 于 单 笠 本 对 称 路 心 愉 验 问题 , 如 假设 总 体 分 布 连 续 且 i 记 W- = SR+T(X 0). 
tl 

0 证明 w+ 一 2 起 1 - 

(2) 设 Ws = 多 -网 , 则 证 明 在 号 :8 = 0 下 ;Wo 屁 关 于 0 对 款 的 . 


ii 
10. 设 艺 ,X， 了 (二 ) 连续 ,以 KR ye 已 在 已 天 中 榴 秩 , 设 n 实 2, 并 有 8 记 V -= Ri 一 及 .， 


We 


证 晓 


站 | 天 
i | 


0, 否则 
11. 设 21,… ,Zw 为 来 自 某 连续 分 布 函数 F(x) 的 id 样本 , 且 Cz) 关于 原点 对 称 . 令 一 > 1CZ, 之 
0 一 TZ 六 们 ), 设 有 ,Xs 和 可,…sY, 为 Zi 中 小 十 零 与 大 十 零 的 绝对 导 的 样本 ,二 回答 :其 十 Z 样 
本 的 Wilcoxan 秩 统 计量 WW* 与 基于 关 ,Y 样本 的 Wilcoxon 秩 统 计量 多 有 何 关系 ? 
12. 设 W” 为 关 十 天 018 = 色 的 Wilcoxon 符号 碑 统 计量 (样本 容量 为 7). 
(1) 证明 , W* 的 零 分 布 为 
cafk) n(n + 1) 
poor-1 2 es 
‘0, 否则 
其 中 心心) 为 {1,…,n} 中 子 集 元 素 之 和 等 上 大 的 了 集 个 数 ; 
;2 证 有 0 中 的 ok) 满足 ;天 == 0 人 a 二 也 
clk) = cath nH) tes 1lk) 


及 之 2 


其 中 
fi， = 

Lo, 是 天 人 

(3) 利 用 (2 中 的 结果 , 给 出 W* 的 零 分 布 的 递 推 公式 ， 

(4) 村 于 二 1,2,3,4, 试 用 (3) 的 公式 求 WW+ 的 零 分 布 . 

13. 利用 第 8 题 的 结论 ,验证 Wilcoxon 符号 牧 统 计量 的 零 分 布 的 期 望 与 方差， 

14. 利用 Wilcoxon 符号 巷 统 计 最 与 Walsh 半 均 的 关系 ,对 任意 的 对 称 中心 8, 求 出 W” 的 期 潼 与 方差 . 


15.。 设 Xl,e',X。 F(z) ,F(z) 连续 , 且 关 于 原点 对 称 , 又 设 和 ,，…, Xi 无 党 存在 ,证 明码 ilecoxbn 符号 
秩 统 填 县 V+ 的 分 布 为 


colk) = 


ntn + 1) 
! 2 


Pr 一 有 一 | | 2-"PW+o iS =), k= 0 
30! 
其 中 5 二 Si > 0)， 
16. 设 Xn 二 Xo 为 nn 个 样本 的 顺序 统计 量 , 令 W,; 3 本 (Km | Xn) 4 科 因 则 
(1) 上 述 Walsh 平均 中 前 二 个 最 小 的 为 Wy ,Wi 和 min 了 WPa) ,那么 第 中 个 最 小 的 是 什么 ? 
(2) 试 证 明 , W。 在 Wslsh 平均 中 最 小 可 能 的 秩 是 到 (2 一 十 1)， 
《3) 证 明 ,，Wv 在 Waisb 平均 中 最 大 可 能 的 秩 是 十 7 一 1) 十 ] ,月 说 明 对 于 32 2,W; 最 大 可 能 的 秩 是 
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多 少 ?> | 
17、 设 义 ,,…,X, 为 米 白 连续 分 布 RCr) 的 i 记 样 本 , 且 FCz; 关于 闫 对称 , 证明 : 


(1) 当 疡 增 大 时 ,区 一 “的 符 苇 秩 仅 当 普 等 于 某 个 Walsh 平均 汪 Xi 十 1) 时 , 才 改变 1 


(2 对 于 ki? 中 的 情形 ,， 当 产 等 平 某 个 Walsh 平均 2 《i; 十 守门 时 ,如 # 一 六 则 区 的 符号 铁 由 1 变 到 一 1 
如 天 六 及 所 关 , 则 其 的 符号 秩 自 一 忆 十 1) 变 到 一 大 十 2 其 中 为 帮 与 X 病 的 样 木 数 . 
18， 有 人 在 厂 究 得 克 萨 斯 州 妆 大 学 篮球 队员 的 体重 时 ,记录 了 如 下 15 名 队员 的 体重 数据 : 


188.9 211.2 170.8 212.141 156.9 223.1] 235.9 183.9 
214.14 221.0 162.0 220.8 174.1 210.3 195.2 


试用 Wilcexon 符号 秩 统计 量 检验 其 平均 体重 是 否 为 163. 5, 并 写 出 其 二 值 . 
19. 在 某 小 学 ,有 人 对 刚 入 学 的 一 午 级 20 名 学 生 进行 了 阅读 测验 ,其 得 分 如 下 : 


33 19 4 5] 41 27 23 39 21 37 
41 31 46 5] 34 37 36 5£ 52 32 


由 这 些 数据 ,我 们 能 否 说 ,入 学 新 生 的 阅读 分 数 小 十 45? 
20. 现 比 较 某 种 产品 的 推销 活动 , 如 果 已 知 一 个 公司 平均 每 月 推销 时 间 为 119( 小 时 ), 而 现在 从 另 一 个 
公司 的 推销 员 中 随机 地 抽取 16 名 推销 员 , 测 其 扒 悄 时 间 如 下 


138 103 91 122 96 145 140 138 
126 120 99 125 9 142 119 137 


试问 这 一 公司 的 推销 员 避 均 推 销 时 间 是 奋 也 为 19 小 时 )? 
21. 某 会 司 经 再 机 售 其 寂 员 手 丁 的 灵活 性 得 分 六 丁 70. 现 从 该 公司 的 雇员 中 随机 地 抽取 18 人 进行 检 
验 , 其 结果 如 下 : 
9 9: 84 80 08 46 47 49 76 
86 87 93 65 48 85 59 72 71 


这 利用 这 些 数据 中 的 信息 ,以 检验 经 理想 法 的 可 信 虐 . 
22. 一 个 食物 研究 所 在 检测 某 囊 香肠 的 肉 含量 时 ,随机 地 测 得 如 下 数据 ( 狗 ): 


76.5 74. 1 74.8 80.4 77.8 70.9 68.3 


(1 计算 Walsh 平均 ; 

《23 求 该 种 香肠 内 含量 的 LLL 估计 : 

(3) 求 该 种 香肠 肉 含 最 的 95 狗 的 基于 Wilcoxon 符号 秩 统 计 星 的 帝 信 区 间 . 

33， 某 医院 对 病人 要 作 某 种 手术 涡 等 待 的 天 数 感 兴趣 ,现在 随机 地 抽取 8 和 名 病人 ,询问 其 所 等 待 的 天 数 
如 下 : 

6 1 1: 9 12 7 13 9 
《1) 计 算 alsh 平均 1 
(2) 求 病人 所 等 待 天 数 弘 平均 值 的 HL 估计 ; 


53)? 求 病人 所 等 待 平 均 天 数 的 基于 多 ilecexon 符号 秩 统 计 基 的 90 多 的 置信 区 间 . 
24、 现 随机 地 抽取 10 名 8 岁 女 孩 的 体重 数据 如 下 ， 


48 63 59 41 60 17 5? 61 67 57 


41) 试 求 8 岁 女 孩 的 平均 剑 量 的 HL 估计 ; 

(2) 试 求 8 岁 女 孩 平均 体重 的 基于 Wilcoxon 符号 秩 统 计 蝴 的 90% 的 置信 区 同 ; 

[3) 试 检验 8 岁 女 孩 平均 体重 是 否 为 56， 

25. 在 研究 交通 瘤 控 系统 时 ,先进 行 模拟 研究 ,人 们 需 复 在 模拟 系统 中 的 交通 反馈 时 向 为 50( 秒 ). 现 沁 
录 了 12 次 反馈 时 间 如 下 : 


67 63 73 80 #66 65 70 55 60 69 56 64 


指出 好" 与 HH .并 用 Wileoxon 符号 秩 统计 基 检 验 之 . 
26. 现 随机 地 抽取 36 名 美国 成 年 人 人 , 济 其 有 眶 图 醇 含 盟 媳 下 : 


251 145 260 257 243 289 204 168 186 
234 321 244 458 299 269 217 175 220 
98 303 2]2 248 224 326 283 233 ]96 
289 250 256 266 265 275 252 222 249 


(1) 礁 家 认为 美国 成 年 人 的 胆略 醇 售 最 是 210, 试问 这 种 论断 是 否 合 理 ? 并 指出 瑟 。 忆 (用 Wilcoxon 符号 
秩 统 计量 》; 

(2) 给 出 基于 Wileoxon 符号 秩 统 计 脐 的 胆 忽 醇 含 量 的 置信 区 各 ,并 由 此 与 61) 结论 相 比 较 . 

27. 验证 如 下 的 ARE; 


分 布 


PE 一 1,1) NC0,1) loekistic ”和 旦 指数 分 布 


ARE!{S ,1) 


其 中 5 为 符号 凌 统 计量 ,t 为 传统 的 上 检验 统计 其 ， 


第 四 章 ”两 样本 问题 


4.1 引 言 


实际 问题 中 经 常 出 现 来 自 两 个 总 体 的 样本 之 闻 的 比较 :例如 ,比较 两 个 班级 某 一 门 课程 的 
成绩 ;比较 两 个 不 同 品 种 小 麦 的 产量 ;比较 两 个 工 此 的 优 省 ;比较 两 种 药物 的 效果 等 等 . 传统 
上 ,人 们 很 设 总 体 是 正 态 分布 或 近似 的 正太 分布 , 然后 利用 两 样本 的 上 检验 . 但 是 关于 总 体 是 
正 态 的 假设 并 不 -和 定 台 理 . 在 小 样本 时 ,近似 也 不 一 定 合适 ,: 这 时 ,如 果 用 上 检验 ,就 可 能 犯错 
误 . 事实 上 ,这 是 个 很 常见 的 错误 . 前 面 也 提 到 过 成 对 数据 的 比较 问题 ,但 那里 的 每 个 XX; 只 和 
Y 一 个 数 比 较 ,与 这 里 的 整个 式样 本 和 和 整个 艺 样 本 比 较 不 同 , 在 成 对 数据 中 ,对 每 一 样本 ,都 受 
两 个 处 理 效应 的 影响 ,而 我 们 感 兴趣 的 却 是 其 中 的 一 个 . 然而 在 两 样本 问题 中 ,对 每 一 样本 已 
只 受到 一 个 处 理 效应 的 影响 ,恰好 这 就 是 我 们 感 兴 趣 的 由 此 看 来 二 者 是 有 着 本 质 的 不 同 . 

在 非 参 数 统计 中 ,我 们 对 总 体 分 布 并 不 作 什么 假设 ,因此 是 解决 这 一 类 问题 的 好 办 法 . 

下 面 的 例子 是 比较 两 个 城市 的 高 层 建筑 的 高 度 . 城市 4 取 了 9 个 数据 (XX1,…, 义 ,) ,城市 

召 取 了 7 个 数据 (了 …,Y,), 列 在 下 表 中 : 


这 里 没有 前 面 讲 的 乾 样 的 天 然 的 数据 对 . 事实 上 ,这 两 个 样本 的 大 小 也 不 一 样 . 但 我 们 可 以 考 
虑 比较 所 有 可 能 的 数据 对 , 我 们 也 可 以 把 陋 个 样本 混合 并 求 其 中 位 数 ,再 把 所 有 的 样本 点 按 样 
本 及 其 相 邓 于 中 位 数 的 位 壮 分 类 , 按 列 联 表 的 方法 处 理 . 在 应 用 各 种 方法 之 前 ,首先 要 对 数据 
进行 预先 们 分 本 ,在 其 是 相符 合 这 些 方法 所 更 求 的 一 些 条 件 . 这 些 预 先 分 析 通常 包括 分 别 的 或 
霄 加 背 的 蔡 中 图 及 僵 了 图 等 
对 于 两 样本 冲 题 ,基体 地 讲 是 这 样 定义 的 ; 设 
Xa Xs FE 和 | ， 


且 基 ，…: 和 7 … 呈 相互 独立 ,其 中 bo 为 位 置 参 数 与 刻度 参数 , 有 关 包 与 铝 的 估计 及 假设 
检验 , 称 为 两 样本 位 置 参 数 问题 ;而 有 关 o 与 o 的 估计 和 假设 检验 问题 , 称 为 两 样本 刻度 参数 
问题 ,这 两 者 统称 为 则 样本 问题 . 由 于 以 后 常用 的 是 两 样本 位 置 参 数 问题 , 故 以 后 所 谓 的 两 样 
本 站 题 ,若非 专门 持 出 刻度 参数 ， 都 是 位 置 参 数 的 ， 好 如 下 的 模型 ， 

和 F(z), 了 ee 


sd 


2 or EF :| 


且 X,,… ,XsY1,…,Y, 是 独立 的 , 参数 9 称 为 位 置 参 数 , 计 且 如 果 0 > 0, 由 了 的 分 布 向 右 平 
移 , 即 Y 倾向 于 比 X 来 得 大 ,事实 上 


Px>Y)=| | dr -0dre) = | Fr— HdFe) 
则 
P(X>Y) 去 K(z)dF(z) 一 立 


基于 上 面 罗 ,Y 样本 的 特性 ,可 以 得 到 许多 的 有 关 百 :9 = 0 的 秩 检验 方法 .下 面 我 们 将 一 一 
介绍 . 


4.2 中 位 数 检 验 及 2X2 列 联 表 


这 里 ， 和 及 了 ,7 为 两 个 独立 的 随机 样本 ., 它们 来 自 两 个 有 连续 分 布 的 总 体 ， 
分 别 有 未 知 的 中 位 数 Mx 及 Mz. 我 们 的 目的 是 检验 它们 是 否 相 同 , 即 检验 FH.:Mx 一 dr 一 互 :: 
Mx 关 Mr( 这 里 我 们 不 考虑 单 边 检验 ), 如 果 它 们 有 相同 的 中 位 数 Mxm, 则 必 有 Px 二 P(X > 
Mxr) 二 P(Y > Mxr) 二 Pr, 这 里 区 和 Y 分 别 表示 两 个 总 体 中 的 一 般 成 员 . 当然 ,作为 第 一 步 ， 
我 们 先 找 出 混合 的 样本 中 位 数 Mi ,然后 再 把 所 有 样本 点 按 其 在 My 的 哪 一 边 及 来 日 哪个 总 
体 分 成 4 部 分 . 这 就 形成 了 下 面 的 列 联 表 、: 


C+D 
N=m+na=A+B+C+D 


这 里 有 4,8,C,D 分 别 为 属于 上 述 四 个 范畴 的 样本 点 数 , 由 初等 概率 论 知 ,4,8B 的 联合 分 布 为 超 

几何 分 布 ， 

1 

- 
十 

但 4 和 有 B 本 身分 别 为 二 项 分 布 Blm,px) 和 Btn,py)., 同样 和 4 十 B 为 BON,p). 


当 妥 , 成 立时 ,4 与 C 应 接近 等 ,8 与 应 接近 弛 .如 果 ; 为 真 ; 则 | 全 一 2 
天 值 .于 是 我 们 可 以 取 愉 验 统计 量 为 | 全 一 至 | ,而 ,的 拒绝 城 应 为 其 取 大 生 
由 于 超 几何 分 布 可 用 正 态 近似 , 且 可 用 Bx 一 各 ,各 一 及 方 = 全 志 和 来 估计 x, 古 及 


户 : 则 对 于 大 样本 ,有 正 态 近似 
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Pa (4 = 有 了 = 及 = 过 让 一 01 


应 倾向 于 取 


a PP NO 
~ -il] ] 


对 于 84.1 中 所 给 例子 的 数据 , 因为 xy = 375, 则 得 到 下 面 列 联 表 : 


我 们 有 
P= 
因此 得 到 2 = 一 1.5119. 查 附 表 2 得 该 双边 检验 的 上 值 为 0.1310, 所 以 没有 充分 理由 拒绝 零 假 
设 . 
注 ; 如 果 发 生 某 数据 和 Mxy 相等 , 则 删 去 此 值 ,这 时 的 Y 也 要 相应 变化 . 
关于 中 位 数 检 验 统计 其 的 取 法 ,有 的 著作 中 取 
M= #1!{Y,> Mxr:! = ls 7} 


可 以 证 明 ,其 零 分 布 为 
"| ni 
开 | [z)-# 
PiM = 有 一 一 ln 


感 兴趣 的 读者 可 参见 [7]. 
以 后 我 们 还 要 讨论 对 列 联 表 数据 的 其 它 应 用 ,同时 还 可 以 看 到 中 位 数 检 验 对 于 厚 尾 的 对 
称 分 布 ,是 一 个 正常 有 效 的 恰 验 ( 见 下 一 节 ). 


4.3 Mann-Whitney 检验 


本 节 比 较 两 个 样本 的 方法 是 基于 比较 所 有 两 个 样本 的 可 能 的 数据 对 ,这 等 问 于 把 两 个 样 
全 混合 排序 ,并 比较 两 个 样本 的 秩 的 大 小 , 这 里 并 不 假设 总 体 分 布 的 对 称 性 ,但 要 假设 两 个 总 
体 分 布 有 类 似 的 形状 ,这 可 由 数据 的 预 分 析 来 验证 . 有 时 可 变换 数据 以 获得 所 需 的 分 布 形状 . 

假定 随机 祥 本 天 ,，… ,种 ，,… ,YY 分 别 来 自 (z 一 Mx) 及 F(z 一 My)( 这 表明 两 分 布 
形状 类 做 》 这 里 下 (z) 为 夫 知 的 分 布 阔 数 , 令 8 一 MMy 一 Mx. 不 失 一 般 性 ,我 们 要 检验 五 
一 0 五 0 


首先 , 把 两 个 样本 混合 排序 . 如 用 R; 表示 第 i 个 了 观察 值 Y 在 混合 样本 中 的 秩 . 为 使 用 符 
号 方便 ,用 也 和 了 分别 表示 两 样本 的 指标 集 . 令 
R= HX, LY IED) — HY EYETL,) 
当 吕 。 成 立时 ,有 ,7 样本 为 独立 同 分 布 的 ,而 当 五 ;为 真 时 ,由 $4.1 知 ,P(X 之 Y) <<P(X 过 
7), 这 就 是 说 节 样 本 倾向 于 大 于 三 样本 , 即 诸 六 倾向 于 取 1,…,Y 中 的 后 有 个 值 . 于 是 


Wilcoxon 于 1945 年 提出 检验 统计 量 Wy = DR 好 Y 了 样本 的 秩 和 , 故 称 之 为 Wilcoxon 秩 和 
检验 统计 量 . 显然, 当 Wr 很 大 时 ,应 拒绝 零 假设 . 
又 由 例 1.7, 我 们 可 以 看 到 


Wy = DR = #(X, YIE 天 天) RL 
fm 


记 Wg 一 #(Xj Yj ETE I) 有 Wy 一 Wy 十 人 六. 类 似 地 ,可 定义 Wys = #(X， 
> Yj EE 1 € 1 及 Wx= Jr 十 亚丁 二 ,于 是 ,Wi 一 Wys = wm. 旺 然 ,在 零 假设 下 ， 
Wy 和 和 Wyx 同 分 布 , Wy 一 般 称 为 Wilcoxon 秩 和 统计 量 (CWilcoxon rank-sum statistics) ,而 
Ww 称 为 Mann-Whitney 统计 量 (Mann-Whitney statistics). 因为 这 两 个 统计 量 对 检验 来 说 是 
等 价 的 ,和 它们 相关 的 检验 也 叫 作 Wilcoxon 检验 或 Mann-Whitney 检验 . 为 了 解 古 ;( 或 内 mr) 
的 分 布 性 质 ,我 们 有 下 面 简 单 的 关于 R; 的 定理 ( 留 给 读者 证 明 ). 

定理 :4.1 记 入 = 十 m, 在 零 假设 下 ;对 i 隆 j 有 


也 (及 一 如 一 广 ， 太一 1 N 
PR = &,R,=7) -mr = 
0， ki 
容易 验证 
_N+1 | N+ Se 
EtR) = a Var(R;) = pa Cov(R,,R,) = pnt [和 
因为 Wy = >》)R,; 则 有 
i 
_ nu(N+1) _ mn(N + 1) 
EtWy}) = 一 ， Var(Wy) = 


显然 


EC(Wxy) = EC(Wy) — 2 =- 至 


Var = Yar(Wy) = Ze 十 
下 面 的 例子 表明 如 何 对 简单 情况 直接 算出 Wr 及 W; 的 值 和 有 关 的 概率 , 即 堆 分 布 , 
例 4.1 在 严 一 2 一 2 时 ,所 有 可 能 的 混合 样本 的 秩 为 1,2,3,4, 相 应 于 它们 的 数据 来 自 芳 
和 YY 样本 的 各 种 组 台 为 6 种 . 在 零 假设 下 ,每 种 可 能 的 概率 为 p 一 二. 下 表 为 所 有 可 能 的 组 合 
及 相应 的 Wxr 及 Wy 的 值 ,左边 的 1,2,3,4 为 所 有 可 能 的 秩 . 
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1 Y 
2 Y 
3 X 
4 X 

0 


PW =wrr? 
一 已 (My 一 Toy)》 


从 上 表 可 以 看 见 ，W， 的 分 布 关于 人 守卫 对 称 ,这 一 点 也 可 从 它 的 定义 得 出 , 即 下 面 的 
定理 . 

定理 4.2 ”Wilcoxon 秩 和 统计 重 的 零 分 布 关于 人 一 对称 

证 明 设 天 ”一 (Qi a Ri RY 为 全 样本 的 秩 统计 其 . 由 定理 3. 3 知 , 愉 ” 在 得 一 
{C8 ,bin) 是 (1 so NY) 的 排列 } 上 餐 匀 分 布 . 又 由 于 在 地 ， 下 ， 一 从 2 和 = Yu, -3 
YY. 也 是 iid 的 ,而 它 的 秩 统计 量 为 (N Sr QoN Qa RN 一 R,) ; 帮 在 a, 下 

(Qi Qs Ri RY EN ON ~ QaN Re 一 已) 
由 此 可 知 , 在 寺 , 下 ， WR nCN + 1) 一 9R, 因 此 在 HH 下 
i=1 i=] 
nN+1) ”av 二 ID 
ne 

. 了 本 HK 十 1) ,1. 
于 是 由 定理 3. 1 知 , W 的 零 分 布 关于 其 期 望 人 一 对 也 对 称 . 1 

利用 这 一 对 称 性 ,对 其 造 表 尾 很 有 用 的 ,当然 , 此 定理 也 适用 于 检验 统计 量 Wxy. 但 是 以 
上 的 简单 方法 对 于 大 的 样本 就 显得 麻烦 了 . 下 面 引进 的 方法 则 可 以 写成 管 单 的 计算 机 程序 来 
计算 太 w 的 分 布 ,关键 是 计算 上 表 中 Wr 等 于 某 一 值 的 数目 . 定义 

Ph) = # (Wxy 一 到 

比如 ， 在 上 表 中 P,.,(2) 一 并 CW yy 人 2) 一 2 及 五 :;(0) Dd # (Wyy um 0) 一 】. 十 面 时 两 个 定理 
的 形式 描述 我 们 的 方法 . 

定理 4.3 如 多 和 了 样本 的 大 小 分 别 是 mx 和 1， 

Pk) = Filk -- m) + bn hk) 

这 里 ， 对 大 OB.,(k) = 0 对 基 = 0,P,0tk) ws Do., Ck) = 0; 对 天 天 0,P,.nlk) > Po,, Ck) = 1. 

证 明 对 于 wx 二 有 两 种 情况 ,1. 上 表 相 应 的 列 以 臣 结 屁 .2. 以 了 结尾 .对 于 情况 1, 按 
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Vx: 定义 ,去 掉 这 个 时 ,不 改变 罗 六 的 值 ( 还 是 &), 反 把 习 的 样本 大 小 由 闫 变 为 如 一 1, 这 就 产 
生 了 上 式 的 第 二 项 . 对 于 情况 2, 按 剑 xzr 定义 ,去 掉 这 个 了 ,好 的 值 会 碱 少 玉 而 变 成 一 mw( 因 
为 这 个 了 比 贡 个 天 大 ,所 以 对 玉 xy 的 贡献 是 rx), 而 了 的 样本 太 小 由 变 为 x 一 1, 这 就 产生 了 
上 上 式 的 第 一 项 . 0 
定理 4.4 在 太 ,:9 = 0 下, 记 概 率 PC 一 Pa rn 一 , 则 有 
Pan(k) 一 让 王 。 人 一列 ) 十 一 一 一 了 PP, (上 ) 
这 里 , 对 大 < 之 0,P;,,(k) 一 0 对 天 一 0， 产 : ey ;对 是 去 0,P;0(k) 二 Po,(8) = 1， 


证 明 在 上.:0 一 0 下 ,一 共有 | "个 等 可 能 的 六 和 Y 组 成 的 序列 ,因此 


Pk) min! rr 万 时 全 
Pa Ck) J 十 ni LP mtk m) 十 P,_ 1 (8)] 
D2 


EE 万 ，。) (二 — 72) mm 五 站] 
Mm 十 Ws | 
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n 
he her ep i 0 
由 此 定理 , 我 们 可 用 递 椎 的 方法 计算 POWxr 入 a), 月 给 出 了 当 开 一 0 二 0 及 ;一 0 一 
2 P,.,(&) 的 初始 值 ， 由 此 及 上 面 弟 推 公 \ 式 可 依次 计算 P,. .《0), Pb 1), Pa 0), Po (1), 
“的 值 , 则 PCWws 之 a) 的 零 分 布 表 可 由 此 算出 ( 见 附 表 5). 注意 : 当 有 关 及 7 了 的 值 相同 时 .内 


Wxr = # (X,Y ETI ED) HX = Yt ELI EL,) 
即 可 ， 
例 4.2 一 名 熟练 工人 先后 用 两 台 机 床 加 工 同 样 的 产品 . 现 从 这 两 台 机 床 加 工 的 产品 中 
随机 地 抽取 若 填 产品 , 测 得 产品 直径 为 (单位 :mmy) 


18,1 17.7 17.2 19.] 17.0 17.5 17.8 18.7 
18.3 19.0 18.9 17.3 16.9 18.4 17.6 18.8 


试问 甲乙 两 台 机 床 加 工 的 产品 的 平均 直 生 有 无 显著 差异 ? 

对 于 本 例 的 数据 , 其 Y 样 本 的 秩 和 为 玉 ; 一 73, 如 显著 性 水 平一 0.1, 则 由 附 表 :5 查 得 < 
一 16,cs 一 mt 一 二 48, 由 此 可 知 ,没有 理由 拒绝 Hi. 

在 大 样 本 时 ,容易 证 明 


定理 4.5 若 关 如 一 co， ,同时 有 < 下 7 厄 下 40 之 4 之 1, 则 在 Hs:8 = 0 下 , 浙 近 地 有 


Ed 和 CN 十 1) 
Wxr 一 Wy 一 < 
天 一- rN{0,1), == 一 一 -一 rN(0,1) 
{mn(N + 1) Ha 一 二 
~ 12 Ny 12 


证 明 ”可见 本 章 阅读 知识 一 节 , 也 可 见 第 八 章 ， 
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对 于 上 面 的 正 态 近似 ,我 们 可 以 写成 如 下 形式 : 


i N+1) 
2 
PW ED) 和 | 一 天 -一 一 一 
fmnCN 十 1) 
AS 12 
[二 05 一 
PAWy EE 
lzn(N + 1) 
~ 12 
其 中 最 后 一 个 近似 用 了 连续 修改 , 对 十 上 面 两 个 近似 结果 的 好 坏 ,Lehmann([14]) 给 出 了 下 面 
的 几 组 数据 : 
Mi 一 3 一 16 
| 6 7 8 9 10 
精确 值 0.0]2 0.024 0.048 0.083 0.131 
无 连续 修改 | 0.010 0.019 0.035 0.061 0.098 
有 人 连续 修改 | 0.014 0.026 0.047 0.078 0,123 
m ==; 二 12 
大 13 15 20 23 25 
精确 值 0.004 0.010 0.025 0,106 0258 
无 连续 修改 | 0.005 0.011 0.045 0.091 0138 
有 连续 修改 | 0.006 0.012 0.051 0.102 小 .51 
认 一 8 一 有 
4 46 48 52 
精确 值 0.005 00I0 0.019 0.052 0.117 0.164 
无 连续 修改 | 0.006 0.010 0.018 0047 0.104 0.147 
有 连续 修 虹 | 0.007 0.012 0020 0,052 


由 上 而 的 数字 计算 可 以 看 出 , 即使 加 ,n 较 小 ,使 用 带 吉 续 性 修改 后 的 正 态 近 似 计算 还 是 可 行 
的 . 一 般 来 说 ,使 用 连续 修改 后 的 近似 要 比 未 作 修改 的 近似 来 得 好 ,但 是 当 W; 取 两 端 值 时 , 情 
况 却 未 必 如 此 . 
注 , 在 六 及 了 有 的 值 相 同时 , 即 全 样本 有 结 时 ,如 用 (ov…，zs) 表示 全 样本 的 结 统计 量 , 则 
可 以 证 明 WyyWsr 零 分 布 的 期 望 和 方差 为 。 
zCN 十 1) 
2 


mn 


Eir (WYy) = : Es (Wxr) = 了 了 


na (一 
i 


Vars CWy) Se Warm (Wxy) = 12 1]2N(N -1) 


其 让 明 H 可 见 [14]. I 当 minCmy#) 一 品 时 ;有 
Wy— En (Wy) « 


一 CO:1》 
V Varp, (Wy) 
We "Eee We) NO.1) 
vy Varn, (Wxy} 


对 于 上 面 的 正 态 近 似 , 不 如 无 结 时 的 近似 好 , 但 是 Lehmann 于 1961 年 指出 ,上 面 的 近似 
还 是 可 行 的 ( 见 JASA. 1961,56:293 一 298)， 

例 4.3 在 心理 咨询 的 研究 中 ,假设 随机 地 抽取 80 人 ,从 中 随机 地 抽取 40 人 给 予 心理 次 
询 ,而 剩 下 的 40 人 没有 心理 咨询 , 之 后 ， 对 每 个 人 的 心理 状态 进行 测试 ,测试 结果 分 为 好 、 尚 
好 , 较 差 和 差 四 种 ， 人 


对 这 组 数据 , 如 我 们 假设 某 总 体 只 取 4 个 值 :1( 代 表 差 ).2( 代 表 较 差 ).3( 代 表 尚 好 ) .4( 代 
表 好 ), 则 一 共有 5 一 7 = 12 个 取 最 小 的 ;7? 十 9 = 16 个 取 次 最 小 的 ;16 十 15 二 31 个 取 次 最 
大 的 ;12 十 9 二 21 个 取 最 大 的 ,这 四 个 值 的 秩 分 别 为 


i es i 13 1 
12 = 6.5, 16 R 20.3 
29 二 28 十 十 59 60 十 所 一 … 十 80 
31 = 44， 31 一 70 
则 Wilcoxon 秩 和 统计 量 
WS=5X6.5+7X20.5~™16 X44+12 Xx 70= 1720 
又 因为 
二 n= 40， EW) = 1620, z 一 12， rz 一 16 
Ee 31， T= ls 1 VartW ) = 89, 27 


所 以 检验 的 pp 值 为 POW 之 1720) 一 1 一 更 (1.01) = 0.16, 故 对 于 e = 0, 1 来 说 ,我 们 没有 埋 
由 拒绝 五, 

队 定义 可 以 看 出 ,Wxy 实际 上 是 基于 mn 个 差 Y, -- 图, 的 符号 统计 量 , 我 们 可 用 
Hodges-Lehmann 佑 计量 

0 — median (Y; — X,) 
来 估计 0. 令 Die RE 了 Don 表示 按 升 冠 排列 的 (Y; 一 Xj Di [3 Tn [= 的 值 . 如 果 k 广 是 
Pa, Wy 祥和 ) 二 记 : 则 9 的 (1 一 100 匈 置信 区 间 为 
[Deri;s Dem_p) 


对 大 样本 情况 ,近似 地 有 
kh 5 Ze jmntm t+nt 1) mn Dy (rt) 
2 IN 12 12Cm 二 nl) ny) 
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相应 于 更 广泛 的 检验 统计 量 , 类 似 83.4 中 上 所 讲 的 , 我们 也 可 以 定义 一 般 的 
Hodges-Lehmann 估计 如 下 ;假设 V(X 及。 ;YY,) 是 一 个 关于 零 很 设 右 ,:8 = 0 的 检 
验 统 计量 ,其 零 分 布 关于 某 对称 , 且 对 于 任意 的 CX styYis0 YD) V(X ,yaY 十 
有 oY 十) 关于 上 是 非 增 的 .定义 


9" SY sup (DY(X KY = 中。 0) > é} 
0°* = inf 人 :YX 一 下 < 


则 8 的 基于 检验 统计 基站 的 Hodges-Lehtmann 估计 为 
0 十 
p+ 


如 果 取 


Ss 
赂 8 的 HL 估计 为 了 :有 ;如 果 取 Y 为 Wilcoxon 秩 和 统计 量 , 则 此 时 6 的 HL 估计 即 为 前 面 
给 出 的 median;,,(Y; 一 XX;) 

关于 Hodges-Lehmann 估计 的 确切 分 布 ,请 参看 习题 2 和 习题 3. 关于 其 分 布 的 细节 ,请 
参看 [7]§ 7. 2; 类 于 其 极限 分 布 ,请 参见 习题 4, 织 节 请 参看 [?] § 7, 3. 

虽说 定理 4. 1 给 出 了 Ri 的 零 分 布 ,但 是 在 考虑 检验 的 功效 时 , 却 需要 知道 其 在 备 选 假设 
下 的 分 布 ,此 时 我 们 有 下 面 的 结论 ， 令 随机 样本 pe 及 了 分 别 来 自 于 分 布 为 
G(r) 和 五 (3?) 的 样本 ,这 里 G(x) 和 五 (?) 是 任意 的 绝对 连续 分 布 昂 数 , 并 以 g(z) 和 有 Cy) 记 
其 密度 . 记 Ro 所 … 扫 民 为 顺 膏 统计 量 Yo 之 … < 之 了 ww 在 X 和 YY 的 汇合 样本 中 的 (次 序 ) 
秩 . 我 们 有 如 卜 定 理 ( 不 证 明 ): 

定理 4.6 假设 由 h(x) > 0 可 导出 SCz) >> 9, 则 

, 下 (入 :r 
PIR 一 TR = 7 一 > 到 条 z[I To a ys | 

这 组 Yo 之 … 之 Vw 为 来 自分 布 吕 的 一 个 人 小 为 mr 二 的 样本 之 顺序 统计 量 Ya) 之 … 过 
Ym-n 中 的 一 部 分 ， 

证 明 见 [14]. 

特别 地 , 对 于 &€ 2.( 密 度 为 力 ,我们 考虑 G(r) = (x) 及 吾 (?) = Fl(y 一 09) 的 情况 . 
显然 ,在 零 假设 Ho:8 一 0 下 ， 


POR = rR 一 入) 一 


| 


pe 


也 就 是 说 R,， < … < Ri 是 均匀 分 布 的 , 即 对 于 | ”” “| 种 组 合 是 等 概率 的 ， 


我 们 在 第 八 章 将 看 到 定理 4. 6 的 应 用 ， 
上 面 我 们 考虑 了 位 置 参 数 两 样本 问题 的 几 个 检验 统计 量 , 这 几 种 方法 之 间 的 党 几 又 如 何 
61 


分 布 尺 中 抽出 的 次 译 样 本 ， 且 与 4 扣 o) 独 立 。 于 是 ， 在 囊 
达 式 
PlYesy— Ko) 20)=P(Z6) X00)) 
中 ， 道 过 国定 到 co) 一 区 求 Geo 区 的 条 件 概 率 ， 用 (2.3)7 式 ， 得 
PlZisy2R rn |X =A) = PZ PX) 


“1 /yy , ， 加 : 
一 BF FAx -F(a 
t=0O0\* ,/ 


天 好? 
再 注意 到 和 ov 有 分 布 葬 数 (2.5), 和 而 GE.(x) 一 (r 二 1)1C2 ry! 


x)(1 一 F(x)m "dF(X)， 得 
PY — N20)=P(Z,)— RN) 0) 


~ 


二 35 FF 一 上 14 Se 
| 马 [ (10 《一 1)17 一 7) 


FRE x))™ "AF (x) 
=7(*) ) Pt ta ) Cun + 2) 
二 


| 0 
11 


ge Sl 


Ht—Y 1 
ee a 
此 式 和 号 下 各 项 为 超 几 何 概 率 , 在 % 不 很 大 时 ， 可 由 超 几 何 分 布 表 
查 得 。. 令 此 式 等 于 1 一 & 以 决定 7 »3 。 则 [六 (,, 了 ,J 就 是 9 的 置信 
系数 为 1 一 4 的 置信 区 间 , 当然 ， 由 一 个 等 式 不 能 决定 两 个 未 知 量 
r,s ， 这 可 以 采用 下 述 由 直观 提供 的 想法 ， 令 
7z 一 [(7i 十 1)/2]-- 71, s=[Cn,t+1)/21]+ 1 (2.94) 
这 表示 分 别 从 足 标 [Ca 十 1)/2] 和 fazs 十 1)72] 出 发 ， 足 标 上 移 扒 
距离 相同 。 以 (2-94) 中 的 f+，S 代 入 (2.93) 出 “try and error” 
的 方法 决定 ! ,使 人 (2.93 ) 正好 等 于 1 一 a. 如 果 不 存在 这 样 的 ! ， 
sa。 62 ， 


测 或 者 修改 xa， 或 者 对 相 邻 的 两 个 上 使 用 随机 化 手 续 , 如 正在 
$2.4 的 三 段 中 所 做 的 那样 。 

当 :?2 较 大 时 ， 使 用 上 述 精 密 的 方法 去 决定 ! 可 能 变 得 过 于 繁 
复 而 不 可 行 。 这 时 可 以 用 正 态 分 布 逼 近 超 几 何 分 布 的 方法 ， 以 决 
定 ! 的 近似 值 。 这 在 和 凯 念 上 与 依据 正 态 逼近 《2.88 来 决定 * 的 
近似 值 (2.89 ) 相同 ， 但 在 排 导 上 要 麻 需 得 多 。 此 处 我 们 不 给 出 
.有关 细节 ， 而 只 将 结果 写 出 ， 

7 SF 了 二 1)72] Oe (2.94) 

Ss NLC mt DD/2 tT C2.95) 

用 类 似 的 方法 ， 可 求 得 8 的 形 如 了 ,一 区 (的 置信 系数 1 一 a 
药 置 信 下 限 。 所 不 同 的 是 ， 在 近似 公式 (2. 94 ) 中 ， 右 边 的 减 号 
要 政 为 加 号 ， 而 在 〈《2.95 ) 中 ， 两 项 祖 加 改 为 相 减 。 

如 要 求 6 的 置信 系数 1 一 a 的 置信 区 间 ， 则 一 个 近似 的 作法 是 
以 前 所 指出 过 的 ， 先 用 上 述 方 法 找到 9 的 置信 系数 1 一 a/2 的 置信 
上 、 下 限 六 66) 一 六 必 及 wr) 一 卫 (ry， 于 是 [Yj 一作 cry; es) 一 
六 (J 作为 8 的 置信 区 间 ， 其 置信 系数 至 少 为 1 一 a. 若 要 得 到 兢 切 
思 信 系数 的 解 ， 也 可 从 头 开始 ， 用 次 序 统 计量 的 分 布 理 论 ， 依 照 
得 出 《2.93 ) 类 似 的 推理 去 做 ， 此 法 在 原则 上 昌 可 行 ， 但 过 于 繁 
复 因 而 缺乏 实用 价值 .故我 们 也 不 去 讲究 其 细节 了 . 

最 后 考虑 有 关 8 的 假设 检验 问题 .所 指 的 大 形 如 

H,:0=00, H,:0<0,, Hs:0>0,, (2.96) 
这 样 的 原 假设 ， 各 有 相应 的 对 立 假设 .例如 ， 及 ,的 对 立 假设 为 
HO0F00. 

这 种 问题 可 以 用 以 下 一 些 方法 去 解决 . 

zi。 蜀 天 样 市 理论 ， 从 8 的 具有 渐 近 正 态 性 的 点 估计 出 发 。 由 
于 浙 近 方差 将 依赖 于 总 体 分 布 玉 ， 它 需要 据 样 本 去 估计 之 。 于 是 
淅 近 分 布 取 代 精 兢 分 布 所 产生 之 误差 以 外 ， 又 加 上 了 用 样本 方差 
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佑 计 异 取代 样本 方 益 所 产生 之 误差 。 故 除非 梓 本 大 小 ?2 很 大 ,这 种 
法 的 效果 不 其 理想 ,一 般 只 是 在 不 得 已 时 候 一 用 之 . 

2. 根据 置信 区 间 与 假设 检验 的 一 般 关 系 ， 通 过 用 前 述 方 法 
作 98 的 形 如 [Yon 一半 (riy,Y6y 一 六 (ry] 的 置信 区 间 ( 或 置信 上 、 下 
限 ), 用 之 检验 原 假设 ( 开 , 或 如 :， 已 9) ,其 具体 作法 与 $2.4( 三 ) 眉 
结尾 处 所 找 述 的 类 似 ， 

3， 现在 介绍 一 种 也 是 基于 次 序 统计 量 的 作法 .不 失 一 般 性 ， 
可 设 (《2.96) 中 的 go 一 0. 因为 内 须 用 Y 了 二 了 ,一 0 代 赫 Y,(i=1， 
和) 印 可 敌 到 这 一 点 。 如 前 以 和 四 委 …< 委 和 om(P 一 入 十 和 0， 
记 合 样本 (人 ,,…， Xn Ys "2) 的 次 序 统计 量 ， 而 pw 记 其 样 
本 中 位 数 . 为 确定 计 暂 设 ?z 为 偶数 且 玉 不 等 于 0 Zi 中 任 一 
个 .于 是 Zd，…， Zoo 在 的 左边 ， 其 余 的 在 右边 。 当 原 假 设 
9 二 0 成 立时 ， 全 体 n 个 样本 六 ，,…，Yns 是 独立 同 分 布 ， 其 地 位 完 
全 平等 , 故 X，,…， 么 这 筷 个 点 中 ， 近似 地 应 有 Jiy2 个 点 在 更 的 
左边 。 以 Y 记 六 ,…， 太 ,中 落 在 mx 左边 的 个 数 , 若 19 一 m1/21 过 大 > 
则 这 将 是 9=0 不 成 立 的 一 种 启示 ， 

显然 ， 当 原 假 设 09 二 0 成 立时 ，# 服 从 超 儿 何 分 布 ， 


Pa-i)= (CF faa) ). 
因此 ， 在 原 假设 9 二 0 成 六 之 下 ， 车 4 一 a<n,/2， 则 得 到 像 4 这 样 
的 偏离 中 心 2/2, 之 值 ， 或 比 之 偏离 更 大 之 值 ， 其 概率 应 为 
=PA=i)+D P=i) 


-38 )(nj2 2) (ny2)- (2°97 > 


如 果 轧 小 于 给 定 的 检验 水 平 4. 则 否定 原 假 设 9=0. 当 4 之 n;/2 时 ， 
《 2'97 ) 式 中 的 a 改 为 1n-& ,检验 规则 不 变 。 

如 果 要 检验 的 原 假 设 是 6 过 0， 则 显然 只 有 # 的 大 值 (远大 于 
872 的 那些 值 ) 才 是 背离 原 假 设 的 , 考虑 到 在 一 般 应 用 中 ， 给 定 : 
的 检验 水 平 a 都 远 低 于 0.5。 故 若 # 一 0， 而 &s 生 My2， 则 必然 接受 原 . 


二 人 4 。 


很 设 。 车 a 半 n1/2， 则 计算 
B= i a 入 js 1)/(102)(=pe/2). (C2.98) 


当 p<<a 时 否定 由 候 设 9<<0. 检 验 原 假设 9>>0 的 方法 与 此 类 以 ， 建 
议 读 着 仔细 写 出 来 。 

如 果 h 二 吉 二 4 为 窒 数 ， 则 合 笠 本 的 样本 中 位 数 友 是 这 A 个 样 
本 中 之 一 。 把 这 一 个 挑 去 不 算 ， 而 按 44 为 偶数 的 情况 处 理 。 也 就 
是 说 ， 车 加 为 下 样 本 之 一 ， 则 知 改 为 Bi 一 1 而 2 不 动 : 阁 13 为 Y 样 
本 之 一 ， 册 芒 不 动 而 z 改 为 如 一 1 当然 改 为 2 一 1, 花 余 一 浪 按 上 
. 述 处 理 。 

池 2 较 小 时 ， 加 或 go 之 值 可 以 通过 查 超 几何 分 布 表 得 到 .这 里 
有 一 个 与 查 表 方便 有 关 之 点 值得 指出 . 记 4a, 一 min(&,n 一 49)。 则 
在 计算 如 或 94oc 时， 涉及 的 和 为 iso。 这 是 从 考察 区 样本 的 和 角 庶 
求 看 的 。 如若 考 峙 卫 样 本 中 落 在 丸 的 左 人 出 的 个 数 六 ， 刚 也 可 作出 
检验 (这 检验 当然 与 已 给 出 的 检验 等 价 ), 记 b= 二 min(B,n, 一 5)， 

这 从 中 夫 计算 的 要 为 


ee (2.99) 
或 
Go 人 a (2.100) 
如 果 a 之 2,， 则 以 用 (297) 或 (2,98) 为 方便 ; 其 46>b,， 则 
自用 《2.99) 或 《2.100 ) 为 方便 ， 
当 % 较 大 时 ， 查 表 或 直接 计算 往往 不 可 行 .这 时 可 考 虚 用 正 态 
分 布 通 近 超 几何 分 布 。 例如， 
pn= Bs (p(s a) Pio) 


其 中 


b= 2n (0 /Vn 


e 605. 


分 子 中 的 172 是 考虑 到 连续 性 修正 ， 


§$ 26 连续 分 布 的 容忍 限 与 容 妃 区 间 


设 关 | ,…， 苹 , 是 随机 变量 半 的 篇 单 样本 ， 入 的 分 布 瑟 处 处 过 : 
续 . 为 直观 计 ， 不 芒 把 X 看 成 某 批 重生 产 的 产品 之 鹿 项 质量 指标 , 
且 假 定 天 之 值 愈 低 ， 则 该 产品 之 质量 傅 不 好 。 我 们 希望 回答 这 样 
的 问题 ， 绝 大 部 分 产品 的 压 量 指标 的 低 限 下限) 如何 。 更 确定 地 
说 ， 指 定 一 个 很 小 的 概率 B， 如 8 一 0.05, 我 们 要 从 样本 六,,…， 
大" 算出 一 个 低 限 ==7OX,,… ,对 ,) , 供 产 品质 量 指标 不 超过 了 的 
那 部 分 最 多 只 占 1008%， 如 

RTX Xi)) SEB, 
但 因 样 本 有 随 视 性 ， 一 - 艇 说 米 ， 不 论 你 如 何 去 选 择 统计 车 了 ， 世 
不 可 能 万 无 一 失地 保证 《2.701) 必 成 立 , 因 此 ， 我 们 只 能 以 一 定 
的 概率 1 一 7 通常 >>0 很 小 ) 保 证 《2.101 ) 成 立 ， 基 村 求 
PCF (UCX, ys, KEP) 1 ~Y, (2.102 

如 果 对 给 定 的 《5，7) , 某 统 计量 工 满足 ( 2.102) ， 则 称 它 是 总 体 | 
分 布 刀 的 5 月 ) 容忍 下 耻 .“ 容 忍 > (Tolerance ) 一 词 用 于 此 处 
其 义 似 觉 费解 ， 后 面 将 试图 作 一 点 说 明 。 

在 已 知 总 体 分 布 为 正 态 时 ， 根 据 昌 然 的 理由， 人们 去 导 求 形 
如 及 -cS 的 容 玉 下限， 此 处 豆 和 3? 分 别 是 号 …， 天 ,的 样本 均值 
和 样本 方差 ,于 是 问题 归结 为 ， 根 据 给 定 的 《B,?》 和 h 去 决定 c. 
这 问题 属 证 参数 统计 范围 ， 在 一 般 教 程 中 多 有 论述 ，c 之 值 也 有 
表 吕 查 ， 

此 处 我 们 对 分 布下 除 连 续 外 别 无 其 他 限制 , 河 题 属于 非 参 
数 范围 。 以 藉 (2) 万 … 三 苹 (wy 记 次 序 统 计划 。 我 们 设想 ， 开 头 几 个 
即 六 (wy， 苹 3，… 永 接近 于 丰 量 指标 的 低 限 , 尖 此 考 筷 形 如 XX 的 
容忍 下 限 。 据 定理 2.1， 然 后 将 (2.3 ) 用 王政 ~~R(0,1) 的 情况 ， 
得 

醒 658 外 


P(F(KeD)) < 了 (% )B'(1-B), 


$= 


时 式 与 (2,102) 结 合 ， 得 出 确定 7 的 关系 式 ， 


3 (4 )p'-p)" ey. (2.103) 


可 以 使 用 二 项 分 布 未， 用 “try and error” 的 方法 去 决定 一 个 满 
足 此 式 的 最 大 的 7 ,然后 ， 取 站 .作为 容忍 下 限 . 常见 的 情况 是 存 
yo 使 : 


2 ) pi 一 PD"-<r< ( 的 )B'01 By", 


这 时 ， 容 忍 下 限 人 cro-n 的 保证 概率 将 咯 大 于 1 一 ?。 


只 要 天 较 大 ， 则 二 项 概率 一 致 地 很 小 ， 央 而 这 个 差 在 应 用 上 
也 许 不 太 重 要 ， 当 ?很 大 时 ， 可 以 通过 正 态 逼 近 去 次 定 y 。 
类 似 地 市 给 出 (8,7)-- 容 忍 上 限 7 一头 太 二) 的 定义 
PPC, 1 一) 关 1 一 7 
车 寻求 六 ,型 的 容忍 上 限 ， 则 与 下 限 类 似 ， 导 出 5 满足 的 关系 洲 
TI p)r sy, 
oo.t Jy 
使 用 二 项 分 布 表 ， 用 “try and error” 的 方法 ， 去 决定 一 个 满足 
此 式 的 最 小 的 s 。 然后 取 慰 (作为 容忍 上 上限, 与 下 轨 查 似 ， 一 般 保 
证 概率 赂 大 于 1 一 7， 
以 上 考虑 的 是 容 迪 上限 ， 现 考 忠 容 肛 区 间 。 所 谓 [7， 方 是 总 体 
分 布 天 的 《有 ) 容 弄 区 间 ， 是 指 
已 (天 (/) -HDF1—P)>1 -7?, 《2.104 ) 
找 容忍 区 间 的 三 个 办 法 是 通过 找 容 忍 限 。 容 易 证 明 ， 车 .和 7 分 
别 是 所 的 CB/2，Y/2) 容 丽 工 、 下 限 ， 则 [六 就 是 屎 的 (87 》 
穿 巩 区间, 因此 ， 河 控 前 述 方法 构造 出 形 如 [ 怀 o, 和 oo] 的 容忍 区 
屈 . 但 这 样 定 出 的 容忍 区 间 一 般 偏 于 “保守 ,特别 是 2 并 不 很 大 时 ， 
就 是 说 ，7r 比 实际 所 需 移 小 在 $ 比 实际 所 需 的 大 。 但 使 用 次 序 统 
计量 的 理论 ， 也 不 难 求 出 形 如 [Ar 和 co 的 精确 解 。 
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以 UU, 记 RC0,1) 中 抽出 的 大 小 为 4 的 次 序 样本 ， 峙 
不 难 证 明 ， 攻 1 过? 之 Sh， 则 ,一 UD, 与 0,_: 同 分 布 .我 们 把 这 
个 简单 事实 的 证 明和 留 给 读者 ,这 样 ， 利 用 定理 2.1, 并 记 k 二 5 一 +，、 
得 

Pe A Pn 1 —p)= en -U,>1—PB) 
让 此 概率 等 于 1 一?Y， 得 到 决定 的 关系 式 


p> 1p! (1—B)"'eY, (2.105» 


由 此 式 决 定 了 上 以 后 ， 宙 根据 s 一 + 二 决定 s 和 了 。 这 就 必须 
引入 另 一 条 件 。 依 对 称 性 考虑 ， 可 把 此 条 件 定 为 s + 7 二 ,除非 
2 有 辐 奇偶 ， 此 两 式 定 不 出 整数 3S,7. 在 这 种 情况 下 ， 可 以 把 第 二 . 
个 条 件 改 为 ?十 *Y 一 22 十 1 或 开 一 1 。 

通常 ， 对 一 种 产品 指标 定 下 了 一 个 规格 区 浊 [4,5]， 只 有 关 : 
产品 的 质量 指标 愉 落 在 [ce, 的 内 对， 这 产品 才 是 合格 的 。 可 以 把 
[GQ,bJ 这 个 区 间 看 成 是 质量 指标 波动 所 能 容忍 的 限度 。 现 在 雪 问 
这 样 一 个 问题 ， 全 部 产品 中 有 多 大 的 部 分 (百分率 ) 其 指标 在 4 
3 之 问 ? 从 直接 的 意义 看 ， 这 本 是 一 个 佑 计 问 题 ， 即 佑 诗 一 个 与 
总 体 分 布 有 尖 的 是 9 一 天 0) 一 天 CC) 。 不 难 作出 9 的 点 估计 及 大 样 
本 区 闻 佑 计 , 但 具有 确切 贤 信 系数 的 小 样 可 区间 佑 计 风 不 易 求 得 。 
受 前 面 讨论 的 六 发 ， 我 们 可 以 换 一 个 角度 来 看 这 个 问题 。 设 有 了 
这 序 样本 居所 … 委 环 并 为 说 肯 简 便 计 ， 设 在 在 r， 8 使 愉 有 
所 cr) 一 Q 有 一 0 然后 用 巡 (xcs) 一 了 (于 0) 取代 Fb Fla). 
给 定 ?，0<yY<1T ,机 找 出 65， 使 

PIF(XY— FOXG) PIP)P1—?. 《2.106) 

8 找到 后 ， 青 把 F(X,) 一 FC(i)) 还 原 戌 原来 的 F(b) -Fa). 
这 样 ，《 2"106 ) 式 就 可 以 解释 为 :“ 可 以 用 1 一 ? 的 概率 保证 符 
合 规格 的 产品 比率 至 少 为 100(1 一 B) 宛 ”。 这 个 解释 对 应 用 老 来 说 . 
大 福 会 党 每 可 以 理解 。 对 注意 理论 般 人 来 说 ， 亿 当然 会 看 到 工 述 - 
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推 下 中 的 不 合并 缉 之 处 ,问题 在 于 ; 下 (5) 一 下 (a) 虽然 未 知 ， 但 
它 是 一 确定 的 常数 ， 并 无 随机 性 。 它 或 者 之 1 一 8， 或 者 之 1 一 B. 
也 就 是 说 ， 它 之 1 一 8 的 概率 只 能 为 1 或 9, 说 它 是 1 一 ? 是 没有 
意义 的 ， 

上 面 这 奶 讨 论 也 就 多 少 说 明了 “ 容 丸 区 闻 ” 一 词 中 , “容忍 
的 意义 何在 ， 虽 然 这 个 名 词 的 确切 性 仍 可 以 讨论 。 


8$2.7 极 值 方 法 


所 谓 极 值 方 法 ， 是 指 那 些 统计 方法 ， 其 使 用 只 涉及 样本 中 的 
最 火 秆 或 (和 ) 最 小 值 。 有 的 极 值 方法 也 用 到 若 于 个 次 大 值 或 次 小 
俩 。 

从 模型 的 原本 上 说 ， 极 值 方 法 可 认为 是 非 参 数 性 的 。 但 在 应 
用 上 上 ， 往 往 先 依据 定理 2.3 这 一 类 的 极 值 分 布 定理 ， 把 模型 过 渡 
自从 洲 型 的 ( 芭 极 值 分 布 三 种 类 型 之 一 )。 从 这 个 角度 和 看， 把 极 值 
方法 妇 入 参数 统计 也 言 之 有 理 。 我们 并 不 入 要 在 此 对 这 个 问题 下 
一 决断。 只 是 田 于 这 个 内 容 在 其 他 统计 课程 中 也 没有 适当 安排 ， 
而 它 又 确 是 次 序 统 计量 的 一 种 应 用 ， 故 在 这 一 章 中 作 点 简略 的 介 
绍 ， 其 详 可 参看 有 关 落 作 ， 如 Gumbel 的 专著 《Statistics of Ex- 
tiemes» C Columbia University Press,1958). 

外 信 统计 应 用 于 这 样 的 情况 。 在 其 中 我 们 最 关心 的 是 变 训 观 
信 名 极端 什 。 人 钢 如 在 一 个 地 涯 多 发 区 ， 逐 日 地 震 发 生 频 繁 ， 但 
绝 人 多数 震 狐 娄 很 低 ， 无 关 紧 要 ， 关 心 的 是 在 一 定时 期 (一 天 ，、 
一 个 月 等 ) 中 地 震 最 大 震级 。 一 条 河流 在 某 处 的 水 位 逐日 有 变 ， 
关心 的 是 其 在 一 定时 期 的 最 高 水 位 或 最 低 水 位 ， 前 者 与 防汛 有 
关 ， 而 后 者 与 航运 有 关 , 这 类 例子 可 举 出 很 多 . 

问题 的 一 般 模 式 如 下 有 一 个 我 们 关心 的 随机 变量 蔷 ， 其 分 
布 瑚 未知。 对 其 进行 了 若干 次 观察 ， 得 到 样本 和 …， 到 xy。 按 基 
种 方式 把 它们 分 成 大 小 为 1 的 组 ， 
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第 一 组 : 全 及 
第 二 组 ; .NE “9 有 2 


第 1¢ 组 六 (miDynri pe 。 

分 组 的 原则 依 数据 的 性 质 及 其 他 考虑 而 定 。 如 在 地 震 数据 中 ， 每 

一 组 可 以 是 一 年 365 天 逐 口 最 大 震级 的 记录 .在 材料 试验 中 ， 控 一 

定 的 方法 把 试验 样品 分 组 ， 每 组 内 各 样品 的 断裂 强度 数据 即 构成 

上 上 曾 的 - -组 数据 ， 按 这 样 分 组 时 ， 可 能 久之 mr， 即 有 些 观 察 值 
由 能 用 不 上 ， 那 世 没 有 办 法 。 介 如 试验 是 由 人 安排 的 ， 这 种 情况 
总 可 设法 避免 。 田 于 要 使 用 极 值 定理 ，2% 不 可 太 小 .又 为 了 估计 极 

值 分 布 中 的 未 知 参 数 ，14 也 不 可 太 小 。 这 就 要 求 资料 数量 有 一 定 
的 规模 ， 

以 Y; 记 上 述 第 2: 组 数据 中 的 最 大 值 (为 确定 计 ， 此 处 我 们 考 
虚 最 大 值 ， 最 小 值 的 处 理 类 似 )， 得 了 1, …，Ym。 假 定 全 部 144 个 
原始 数据 评 !,…， 半 m4 是 独立 同 分 布 的 ， 则 了 ，…， 了 也 是 独立 
同 分 布 。 又 假定 ?已 足够 大 ， 且 总 体 分 布 玉 适合 定理 2'3 的 条 件 ， 
则 存在 常数 & 利 ax>>0， 合 对 每 个 ; ,aa，( 了 ,一 #) 的 分 布 函数 近似 
地 为 expt-e 一 )， 这样 ， 玉 的 分 布 训 认 为 是 exXp(-e 9) )。 

如 当知 道 了 世 和 a, 吝 可 以 回答 一 些 感 兴趣 的 问题 。 例 如 ， 算 
出 Xo 使 

exp(-e-°‘*0 W)C—0.99, 《2,107 ) 

. 则 事件 {YY <xo} 的 概率 只 有 百 分 之 一 ,如果 五 ; 是 一 年 内 所 记录 的 
最 大 震级 ， 则 xz 可 解释 为 ,在 指定 的 一 年 中 碰 到 震级 超过 xyo 的 地 
震 ， 其 机 会 不 过 百 分 之 一 .通常 刀 这 个 和 说 成 是 “百年 一 遇 * 的 地 
震 震 级 ,这 个 数据 在 建设 一 项 大 型 工程 时 有 参 沽 意义 ,但 通常 参数 
Uw 机 a 都 未 知 ， 需 要 通过 样本 进行 估计 .这 就 是 为 什么 我 们 必须 有 
M 组 数据 (不 太 小 )， 以 得 到 了 …， 了 wm， 它 们 看 成 是 从 具有 分 

- 布 exp(-e ”9) 的 总 体 中 抽出 的 简单 样本 ， 据 此 估计 z 和 4. 方 法 
很 多， 较 重 要 的 有 以 下 几 种 ， 
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1. 样本 分 位 数 法 
把 (2.107 ) 左 端的 函数 记 为 CG(z)， 得 如 (2z 一 e71 一 0.3679 
王 力 , . 换 句 话说 ， # 是 分 机 GG 的 轧 分 位 数 ,因为 Y),…， Fw。 是 人 好 的 简 
单 样本 ， 夏 z 可 通过 了 ,…， 了 Y。 的 样本 思 ， 分 位 数 去 信 计 之 ,其 次 ， 
有 
Glut TT)—exp(-e"!)—0.6922= ps, 


故 # 十 1/a 可 通过 了 9 …， 了 的 样本 分 位 数 去 估计 之 ,这 与 有 的 
估计 绪 合 ， 即 得 册 < 的 估计 。 

这 个 方法 简单 易 行 。 在 更 很 大 时 效果 也 好 .但 次 较 小 时 ， 由 于 
样 林 分 位 数 的 多 值 性 难以 妥善 处 理 ， 效 果 就 会 差 些 。 故 这 时 不 宜 

2， 了 最 小 二 乘法 (线性 回归 法 ) 

以 Yj 和 Yj 记 了 ,Ym 的 次 序 统 计量 , 按 定 理 2.1， 
Cr GCYm)) 是 均匀 分 布 R(0,1) 的 次 序 样本 . 易 算 出 

EC(G(YFo0))= 2 /mil1), 1 =1,.…, #, 

故 在 坟 较 大 时 ， 订 以 把 i/AC9m 二 1) 作为 G(Y wp) 的 近似值 ,这 可 以 
由 GC 6)) 的 方差 


+1—2) 
Var (CG(Y .oo) )) ORT 1 2) 


当 j 扣 较 大 时 其 小 看 出 ,于 是 可 写 
exp(t.—exp(—a(lY .0 —H))) 


2 
?十 L 


多 i=1,., WA 


取 两 次 对 数 ， 得 


a(¥' i i) log( —log 
此 式 只 是 近似 的 。 如 强 令 其 相等 ， 则 当 mp 沁 2 时 ， 得 出 矛盾 方程 
组 。 只 好 用 最 小 二 乘法 来 处 理 ， 即 求 zx 与 之 值 外 公使 表达 式 


3 (ae 一丝) ~—C.)? 


) 二 0 一 1 Ms 108》 
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过 到 最 小 ， 不 难 解 出 结 果 为 
A (FSY/m), 
Se " (2.109 ) 
Rb eA (5= 之 6/ mm). 
邮 和 合 加 不 其 大 ， 这 于 《2.108 ) 近似 程度 较 低 ， 但 (2:108 ) 
尊 边 的 益 ， 符 号 正 负 都 有 。 改 经 过 最 小 二 乘 处 理 ,所 得 解 (2:109 ) 
一 般 仍 不 差 , 这 当然 不 是 说 ¢ 的 大 小 无 关 紧 机 ,只 是 说 ， 神 对 于 样 
本 分 位 数 法 而 言 ， 此 法 对 ?4 的 要 求 较 低 ， 因 为 当 鸡 很 小 时 ， 祥 本 
分 位 数 作 为 总 体 分 布 右 的 分 位 数 艇 估计 ， 误差 太 大 ， 而 导致 &， 
4 的 千 计 很 不 准 , 此 法 所 受 影响 赠 小 些 , 当然 ， 这 里 有 两 个 前 所， 
一 是 n 己 足够 大 使 极 值 分 布 可 用 ， 二 是 各 组 极 代 YY,,…， a 
上 是 独立 同 分 布 .如 有 级 信 概率 纸 ,可 将 圾 个 入 (4), 二 一 2 


一 1, …， 23 描 在 这 种 纸 二 ， 老 这 散 点 图 基本 上 是 一 直线 趋势 
凤 上 述 要 求 可 认为 基本 满足 。 作 为 近似 ， 可 用 月 测 法 画 出 一 条 加 
归 直 线 : 由 之 定 出 站 和 &。 一 般 这 与 用 公式 (2.109) 和 多 得 的 相去 不 远 。 

3。 航天 似 然 倘 订 法 

此 法 效率 较 高 (当然 也 是 从 太 样 本 现 点 )， 但 计算 也 较 繁 。 先 
号 出 《了 8 的 似 然 顶 数 工 ， 

L=a" exp (Be )exp(-aS(Y,—)), 
此 式 的 洲 历 简单 ， 由 了 ,的 分 布 汶 数 exp(-e “”" 中 ) 对 x 求 导 ,得 
了 ,的 概率 密度 函数 ， 再 根据 似 然 范 数 的 定义 即 得 , 记 产 一 e “5 
=—S ei/m 得 

logL=m(loga—a(F ~1#) ~—Z/h), 

把 此 式 分 别 对 万 和 a 求 僻 时 数 并 令 之 为 0， 得 方程 组 


EO 2 “Yt 9, 


), 


pt 
SA 
1 一 工 一 1 2 
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于 数值 方法 ， 先 由 第 二 式 解 出 a, 以 其 结果 代入 第 一 式 的 a 而 解 出 
人 

有 人 可 能 会 认为 ， 用 下 面 的 方法 处 理 极 值 问 题 ， 既 简单 直接 
又 可 能 效率 更 高 ， 征 热 % 和 和 74t 都 太太 小 ， 风 mz 应 是 一 相当 大 的 数 
通过 mn 个 样本 基 ,,…，Xma 去 估计 原 总 体 分 布 ， 比 方 说 就 用 经 
验 分 布 ， 其 精度 应 较 高 。 然 后 ， 了 ,是 久 个 观察 值 的 最 大 信 ， 其 
分 布 应 为 En， 可 以 用 天 "去 估计 。 利 用 各， 就 可 以 解决 诸如 寻找 
“月 年 一 届 ? 界 限 的 问题 。 这 种 做 法 表面 上 直 截 明 了、 实际 上 不 一 
定语 行 。 一 则 在 应 用 中 ， 每 组 内 冯 个 观察 值 同 分 布 的 要 求 不 见得 
很 好 地 汪 足 这 影响 了 五 的 估计 到 的 精度 ， 例 如 ， 一 条 河流 在 夏 秋 
之 交 每 日 的 水 位 昌 有 随 礼 性 ， 们 总 的 和 高 于 冬 春 之 交 的 村 水 期 的 
水 位 。 可是， 尽管 没有 这 个 同 分 布什 ， 极 (大 、 小 ) 值 的 分 布 却 不 
受 光大 影响 ， 其 次 ， 邮 使 下 的 估计 公有 较 好 的 糖 谋 ， 但 1 一般 较 
天， 如 "作为 瑟 " 的 估计 ， 精 弃 就 不 -- 定 好。 最 后 ， 在 有 的 问题 中 ， 
只 在 极 值 的 记录 ， 诛 始 记 录 或 没有 或 不 全 、 这 时 ， 刚 才 所 描述 的 
方法 炉 本 无 法 使 用 ， 伺 前面 介绍 的 方法 《 它 只 用 到 各 组 的 被 值 
Y.,…， 了 了 , ) 则 不 受 影响 ， 

在 结 来 本 章 之 前 说 儿 句 关于 截 尾数 据 的 问题 ， 在 通常 情况 下 
廊 说 截 尼 数据 ， 指 的 是 下 面 的 情况 ， 没 有 能 疯 察 到 全 部 的 次 序 样 
本 让 和 Ny 而 只 观 察 到 其 SS 部 分 0) < 秋 天 co < 
茎 Xu : 例 如 # 个 元 件 分 别 观察 其 寿命 ， 预 定型 第 个 失效 时 试验 
停止 , 则 4 二 1 而 5 二 r+，a ,让 都 为 非 随机 的 。 也 可 以 先 指定 一 
个 时 间 ， 试 验 进行 到 该 时 刻 为 止 ， 旦 只 记 下 当时 已 失效 的 元 件 
寿命 数据 ， 则 或 者 根本 无 可 记录 但 也 知道 了 这 ?个 受 测 元 件 的 
海 命 都 大 于 上 ， 这 个 信息 也 可 用 于 统计 推断 ), 或 者 是 4 二 1 而 
1 专 5 <<n，65 是 随机 的 ,又 如 革 是 某 个 量 在 一 定 仪器 上 测 出 的 秆 。 
而 该 仪器 具 能 读 出 界限 4、B 之 间 的 测定 值 .这 时 4a，5 都 是 随机 
的 。 

处 理 截 尾数 所 的 统计 方法 很 多 ， 多 数 属 于 参数 统计 范围 我 
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们 不 打算 深入 这 个 课题 ， 只 结合 本 章 内 容 作 一 个 附注 ， 前 面 所 讨 
方法 ， 大 多 内 涉及 少数 上 个 次 序 统计 量 ， 例 如 极 值 方法 只 用 到 
所 或 in。 估计 对 称 中 心 只 用 到 样本 中 位 数 等 ， 只 要 所 用 到 的 : 
那 一 个 或 几 个 次 序 统计 量 属 于 被 记录 的 范围 ( 即 在 下， 故 to 
内 )， 哆 以 前 备 市 好 方法 畅通 无 阻 ,道理 很 简单 ， 我 们 不 妨 假装 认 . 
为 企 体 汉 0 “ng 六 避 , 都 在 ， 这 当然 不 影响 Xs 广 届 之 但。 
因此 ， 有 时 可 以 有 意识 地 调整 方法 ， 使 所 需 的 次 序 统计 量 都 在 被 
记 涝 的 范围 内 。 试 举例 以 明之 ， 设 变 量 XX ,了 分 别 有 分 布 (X) 和 
(x 一 0). 为 入 计 9， 对 六 ,分别 氟 作 ?mx 次 和 ne 次 观察 。 但 前 者 内 
观察 到 大 0o) 委 … 扫 天 oo 而 后 者 内 观 综 到 六 6, 鞍 … 夺 Yioy, 这 时 ， 

刘 能 找到 这 样 一 个 介 于 0 与 1 之 间 的 数 上 2， 使 卫 样 本 (大 小 为 7) 的; 
二 分 位 数 Mzp( 天 ) 属 于 天 tp， 到 内 ， 和 而立 (样本 天 小 为 2) 的 四 
分 位 数 pp( 了 了 ) 属 于 Yoo,…， 了 ca 内 。 则 8 可 用 144w( 了 ) 一 fmp( 汪 去 
估计 之 。 上 述 如 是 在 有 了 翌 本 以 后 才 选 定 的 ， 从 最 严格 的 理论 观 . 
点 看 ， 这 与 了 的 选 定 水 依赖 于 样本 的 情况 有 所 不 司 ， 但 是 ， 类 似 
于 这 种 做 法 ,在 实践 中 不 时 见 到 (如 在 用 法 作 拟 合 优 度 检 验 时 ， 

分 组 随 祥 本 情况 而 定 ， 在 采用 何 种 回归 模型 的 问题 中 参考 散 点 图 
等 ) ,一 般 多 不 予 深究 。 方 使 的 看 法 是 ， 就 把 这 个 加 看 成 是 事先 选 定 
的 。 


习 是 


2-1 写 出 恒等式 《2.4) 的 完整 证 明 。 

2-2 证明 ， 设 站 忆 志 … 志 这 (0w) 为 分 布 五 中 抽出 的 简单 样本 : 
的 次 序 统计 量 ， 且 对 某 个 7 所 Nn，X6, 的 概 闪 密 度 存 在 . 则 下 本 身 
的 概率 密度 存在 (不 训 悉 绝对 连续 概念 的 读 省 可 略 去 本 廿 )、 

2-3” 记 导 同 上 题 . 设 1 志 7 之 5 <n, 试 写 出 (Xj;(6)) 的 联 
合 分 布 函 数 ， 并 对 之 求 导 以 得 出 公式 ( 2.'13) 

2-4 设 随 机 变量 芝 有 分 布下 (x)。 若 下 并 非 寻 处 连续， 风 
F(X) 不 服从 (0,1) 均匀 分 布 。 
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2-5 记号 同上 题 。 设 已 处 处 连续 .把 (2.55 ) 式 定 尽 的 函数 
心 (x) 记 为 ~!(x) 《这 记号 意 昧 着 把 这 样 定 义 的 G 视 为 下 RE 
数 ， 唱 则 当 五 不 处 处 严 增 时 ， )， 


局 为 《0,1) 均 公 分 布 ， 则 开 一 二 7)( 比 题 形式 上 是 上 题 之 道 


上 题 给 出 避 二 严 ( 瑟 ) 两边 取 严 -0)， 

2-6 设 局 挝 … 委 2 为 《0,1 7) 均匀 分 布 的 次 序 样 本 . 记 
TD 一 Do 一 2 
证 明 下 9 VV ,+1 辐 分 布 但 非 独 立 (任意 一 对 不 独立 ). 

2-? 以 4 记 对 称 分 布 五 的 对 称 中 心 . 设 六 1，…， 关 ,为 下 的 简 
单 样本 ， 人 次 为 其 样本 中 位 数 .求证 痛 是 4 的 无 备 佑 计 .此 题 可 直接 证 
《< 即 和 通过 样本 中 位 数 之 分 布 ) 或 利用 对 称 性 用 一 个 简单 技巧 证 得 ， 

2-8 月 郴 种 方法 算 极 差 尽 的 期 望 ， 证 明 颖 果 一 致 : 《41 用 极 
差分 布 (2.25 ) .(2) 用 公式 EC(R)=EX6，,— EX,. 

2-9 车 及 不 古 有 界 随 机 变量 ， 则 极 差 RR 的 期 架 ELR) 必 随 
4 六 0 而 赵 于 无 穹 。 反 之 ， 关 六 有 界 ， 则 当 >>o 时 ECR)>sup¥ 
一 infX .这 里 Sup 和 和 inf 和 分 别 指 二 的 4 实质 * 上 、 下 确 措 .例如 ， 
Sup 革 的 意义 是 ，P(X sup 六 ) 二 1, 但 对 任 给 e 汪 >0 有 P(X 三 sup 际 
一 6) 之 1 ,又 除非 式 退 化 ， 五 ( 玉 ) 必 是 2 的 严格 道 加 函 溉 。 

2-10 当 总 体 为 《0;1 ) 均匀 分 布 号 2 为 价 数 时 ， 求 出 样本 让 
位 数 的 密度 ， 

2-11 用 条 件 分 布 的 方法 求 ae 到 tr 十 5 的 分 布 ( 记 号 间 第 1 
题 ) 。 

2-12 证 朋 ， 任 一 对 称 分 布 的 对 称 中 心 必 唯 一 。 

2-13 举 一 个 简单 反例 证 明 ， 样 本 中 位 数 不 一 定 是 总 体 中 位 
数 的 无 但 估 计 。 

2-14 《〈 续 上 题 ) 但 是 ， 扼 总体 分 布 对 称 。 则 样本 中 位 数 必 为 
对 称 中 心 的 无 人 篇 但 个 必 祖 合 的 合计 。 

2-15 《用 引 理 22 的 记号 ) 对 4 专 0 的 情况 、 完 成 引 更 2.2 的 
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证 氏 。 

2-16 在 样本 分 位 数 的 一 般 定义 2,16 ) 之 下 ， 证 明 其 浙 泊 
正 态 性 (在 定理 2.2 的 基础 上 )。 

2-17 证 明 {2-57) 和 C2.59) 是 - - 回 事 ， 

2-18 试 从 Moore 冠 理 ( 定 理 2.4 ) 推出 Lindeberg 中 心 极限 
定理 (iid .情况 ) 。 

2-19 和 寞 用 定理 2-4， 写 出 两 边 切 尾 比例 不 同时 ， 切 尾 均值 
和 的 极 败 定 弄 。 

2~20 当 底 分 布 为 负 指 数 分 布 或 Cauchy 分 布 时 ， 通 过 直 缮 
计算 去 证 明 Von Mises 定 理 ( 定 理 2.3 ) 的 结论 . 

2-21 设 多 为 一 切 一 维 分 布 构 成 的 分 布 疾 ， 下 1，…， 下。 为 
一 维 简单 拌 本 。 记 妨 一 (拉克 7 一 二 证明， 了 充分 韭 
完全 ， 了 :完全 非 充分 。 

2-22 多 及 这 1,…， 区 ,的 意义 问 上 题 ， 义 设 为 偶数 22424。 以 
HA .| 
次 序 统 计 晤 。 证 明 ， 往 让 车 ， Ym 分 作 
和 全 《此 题 缚 绩 不 必 姑 为 委 攻 ， 基 机 自 变 量 个 数 任意 及 也 对 ， 证 
明 洛 繁 ) 。 

2-23 设 总 体 分 而 谱 为 艾 匀 分 布 族 {R .04,810):-0 之 0 
<co}.。 证 明 当 样本 大 小 沪 2 时 ， 次 序 统计 量 ( 民 Xe) 为 证 会 
统计 量 。 当 N 这 3 时 ，《 龙 届 ，…， 莹 wy) 不 为 完全 ， 

2-24 ”假定 在 例 2.1 中 ， 分 布 斑 有 密 座 ff，f(0)>>0 且 f(x) 


在 + 一 0 处 韦 续 , 试 在 这 些 假定 下 ， 求 当 4 人 本 时 ，(2.68 )》 式 中 
的 5 极限， 并 解释 所 得 结果 。 
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$3.1 从 统计 问题 引进 U 统计 量 


一 、U 统 计量 的 定义 ， 一 样本 情况 

在 纶 :3 中。 我 们 指 昌 了 ， 在 总 体 分 布 族 满足 很 广泛 的 条件: 
下 ， 简 单 样 生 的 次 序 统计 量 有 充分 手 与 完 仿 性 ( 其 中 充分 性 对 总 

分 布 族 不 亚 求 任何 条 件 》 。 这 个 重 棵 事实 与 参数 估计 理论 中 的 
icehrmann-Scheffe 定理 结合 ， 就 可 以 证 明 某 些 值 计量 是 最 小 方 
差 无 癸 估 计 。 样 本 光 值 狐 为 总 体 同 依 的 生计 是 一 个- 简单 汀 典型 的 
例子 。 把 这 个 例子 加 以 引 伟 ， 可 以 右 下面 的 一 般 横 式 ， 从 中 月 然 
地 引 测 局 统计 明 的 定义 ， 

设 总 体 分 布 玉 ( 暂 没 导 -一 叭 分 布 ) 屋 于 一 定 的 分 布 族 多 。 没 .FE 
满足 8 2.3 提出 的 有 关 深 序 统计 量 完 全 性 的 条 他。 设 9) 是 定 
义 在 多 上 的 一 个 取 实 数值 的 泛 孟 -一 从 统计 的 疯 点 看 ，8( 太 ) 无 
穆 是 分 布下 的 森 雯 特征， 例如 0) 可 义 基 下 的 期 班 ， 中 倍数 ， 
变异 系数 或 方差 等 。 习 钳工 也 把 这 牧 60 站 称 为 分布 所 的 佑 数 ， 
保 这 不 过 是 指 共 从 由 下 决定 这 个 事实 ， 与 关 数 统计 中 于 税 决定 分 
布 形状 的 实 参数 不 基 一 轩 江 ， 

忱 设 从 总 体 严 中 不 出 了 大 小 为 天 的 简单 梓 本 天， 天 
要 依据 它 去 估计 28 天)， 和 项 户 线 漳 BE 的 二 小 方 盖 无 全 合计 。 一 : 
般 ， 只 用 到 少数 几 个 样 杰 的 无 俏 估计 比 棕 好 我 (当然 ， 在 有 的 并 
题 中 无 偏 估计 狠 本 不 在 在 ， 那 就 足 另 一 回 事 了 ) 鲁 设想 我 们 找到 
了 只 依 束 za 个 样本 瑚 委 站) 下,，…，m 的 无 偏 估 计 大 入 
如 省 6)= 开 的 数学 期 望 时 ， 可 取 壤 ==1 而 x) 
一 和 X。 由 于 玉 (和 …， 淮 w)》 具 用 了 … 小 部 分 样本 ， 它 的 性 能 不 
机 能 很 好 。 但 是 ， 由 于 A…， 愉 为 id。 对 任何 国定 的 、 介 于 : 
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1 与 4 之 间 的 、 两 酚 不 同 的 自然 数 至 za， 在 (和 im ) 

也 是 6( 歼 ) 的 无 偏 估计 。 毅 取 所 有 这 样 的 (和 ，…，im)， 我 们 就 得 

到 C9 一 1)… (x 一 7 十 1) 个 元 偏 信 计 ， 直 驱 上 觉得 将 它们 平 
. 均 ， 会 得 到 性 能 更 好 的 无 偏 居 计 : 

UU Xs XV) 一 -TOO 放 也 on 

(有 《3.17》 

这 里 马 * 中 的 * 叶 志 未 求 和 范围 是 : 2 mm 互 不 相同 ， 且 都 基 

不 超过 ?2 的 自然 数 . 

U， 的 无 仿 性 是 显然 的 。 它 还 大 坡 小 方差 的 无 篇 估计 ,为 证 
此 只 须 注 意 到 ; (3.1) 式 右 端的 表达 式 显 然 不 依赖 丁 六 ，,，…， 
并, 的 排列 次 序 ， 因 而 只 依赖 于 六 1,…， 六 ,的 次 序 统 计量 , 按 
关于 总 体 分 布 族 多 的 假定 ， 次 序 统 计量 有 充分 完全 性 ， 因 面 据 
Lehmann-Scheffe 定理 ，U' 确 是 6( 王 ) 的 最 小 方差 无 篇 估计。 
这 引出 下 述 关 于 如 统计 量 的 定义 ， 

定义 3.1 设 环 ，…, 私 为 样本 ， 殊 为 下 个 变 元 的 函数 ， 
2< 寺 N， 则 由 《3*1) 式 定义 的 Us 称 为 UU 统 计量 ,或 更 仔细 地 ， 
是 以 函数 有 为 核 的 ， 基 于 样本 卫 ,,…, 了 XX。 的 U 统 计量 . 

此 定义 中 并 未 要 求 苹 ,，…: 有 为 id， 这 是 因为 ， 有 时 需 : 
考虑 这 样 的 局 统计 量 ， 其 样本 不 同 分 布 或 不 独立 ， 虽 在 本 教程 中 
不 会 碰 到 这 种 情形 ， 

如 时 中 为 对 称 函 数 ， 则 (3:1) 式 可 略 简化 些 (h 对 称 是 指 电 
之 值 与 其 变 元 之 次 序 无 关 )。 例 如 当 fx 一 3。 在 有 XX,, 羡 ,六 ,)， 
用 瑟瑟， 大， 瑟瑟) 天 (瑟瑟 是) 等 6 个 相 局 
项 中 ， 只 用 保留 其 一 就 够 了 〈 溢 以 6 这 个 因子 》。 不 难看 出 ， 简 
化 后 结果 是 : 


U,= Dicietae eineni( ? KX)/f ) {3.:2) 
7 


如 果 瑚 本 非 对 称 , 则 可 以 先 将 其 对 称 化 .处 法 是 引进 下 述 函 数 /er， 
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hx Kos Nm) Di Xi Xin ) /Ms 
和 和 号 中 的 * * 表示 利 范 围 是 , 如,…im 互 不 相同 日 都 不 超过 m。 换 - 
各 话说 ，( 训 sim) 取 ] ,… .Ht 的 一 切 可 能 的 置换 ,其 数 有 和 5 个 ， 
引进 &¥ 后 ，《 31) 式 妈 可 改写 为 《32), 具 须 扣 其 中 的 有 下 为 
hx， 而 hx# 显然 是 对 称 的 ,因此 ， 在 以 后 我 们 多 假定 核 是 对 称 启 
数 ， 

读者 容易 看 出 ， 车 8()== 玉 的 期 望 而 取 有 h(x) 二 x ， 则 上 统 . 
让 量 就 是 垃 。 现 考虑 一 个 略 复杂 一 点 的 例子 。 

例 3.1 以 多 记 一 切 其 方差 有 限 的 一 维 分 布 族 ， 要 找 方 盖 的 : 
最 小 方 关 无 例 佑 计 。 

设 有 简单 样本 六 1,… ,六 ,。 取 有 (XX) 二 各 一 Xa《 注意 这 . 
不 是 对 称 核 》。 则 易 见 

Eeh (XIX) PrAI— ErXi Erdi,=ErdXi— (ErX,)’ 

二 玉 的 方差 

敬 玉 可 到 为 核 。 有 


1 
Um (XA ), 
求 和 范围 为 1 <i， 训 和 Hh， 记 了 短 i 在 也 Pwo XX 民 中 、 每 个 入 9 出 ; 
现 4 一 1 次 ， 因 每 个 7 了 可 与 田 一 个 不 超过 江 不 等 于 7 的 自然 数 . 
此 搭配， 而 这 种 上 有 天 一 1 个 。 故 
we 及 0 tn—1) 了 
另 一 方面 ， 
Te 疏 i Ai 一 了 之 bp Xo X= 
st1=™1lig=1 一 上 让 
结合 以 上 三 式 ， 得 
Us 


一 1 证 ; nl] i 


这 就 是 通常 的 样本 方差 .因为 按 定 理 2.7， 对 本 例 中 的 总 体 分 布 - 
族 严 面 言 ， 次 序 统计 旱 有 完全 性 , 故 样本 方差 是 总 体 方差 的 方差 
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最 小 无 篇 扼 计 -。 

按 本 例 的 仅 法 可 得 到 任意 阶 总 体 中 心中 的 最 小 方差 无 仿 估 
计 。 险 数 盒 高 ， 计 算 愈 繁 ， 但 原则 上 无 朵 难 , 以 3 阶 中心 矩 和 为 
- 例 ， 

Hs=E(x—m) = EX — mE + in, 

其 一 个 无 偏 估计 显然 是 革 1 一 3 天, 六 ?十 2 站 , 玉 , 尽 ,以 此 作为 (3:1) 
式 中 的 核 RM ,Xo,Xs)、 可 算出 UU,， 它 就 是 As 的 最 小 方差 泡 偏 
估计。 当然 ， 对 总 体 分 布 族 .多 上 归 有 一 定 的 假定 。 例 如 ，. 多 是 一 
切 其 3 阶 宅 有 限 的 一 维 分 布 族 。 

同一 个 量 6(F) 的 无 偏 个 计 不 止 一 个 。 因 此 ， 我 们 可 能 找到 
两 个 核 两 数 有 (CXL Xmi) 和 有 《XX1，… ,Xmz)。 同时 满足 条 和 件 

Erhi(X, nr Xm)—=0(F), i 一 1:2。 

分 别 从 九 ,hs 出 发 利用 (3:1) ,就 得 到 两 个 UU 统计 量 , 暂 记 为 Ul 各 
Za。， 在 多 满足 透 当 条 件 时 ， 它 们 者 是 0(F) 的 最 小 方 差 无 偏 估 
计 。 这 样 一 来 ， 岂 硅 : :小 方差 无 偏 估计 可 能 有 很 多 ? 其 实 不 然 ， 
- 因 按 完全 性 定义 ， 只 传 南 证 某 一 完全 统计 量 的 无 伪 佑 计 ， 实 质 上 
( 就 是 说 ， 以 概率 1 ) 只 有 一 人 个。 所以， 不 论 您 从 什么 核 出 发 ， 
撤 后 所 得 的 局 统计 时 形式 一 样 。 例如， 当 9( 玉 )= 天 的 期 望 时， 
你 可 以 到 h(x)==xi 或 取 有 (x1,%.)= 二 (XX 十 XY,)/2 为 核 ， 它们 引 
出 的 U 统 计量 都 是 样本 均值 下， 

这 伴 就 产生 一 个 有 超 的 问题 ， 对 给 定 的 0( 下 ) ， 要 决定 藤 小 
的 4, 售 只 全 垃 变 元 的 核 在 在 。 这样 的 区 称 为 6( 下 ) 的 《级 ”. 决 
定 一 个 泛 丙 8( 古 ) 的 级 有 时 不 难 ， 例如， 总 体 期 雇 有 只 依赖 一 个 
样本 的 无 偏 估计 ， 放 其 级 当然 是 1。 由 例 3.1 知 总 体 方差 的 统 不 
超过 2 。 不 难 证 明 就 是 2 (习题 2 )。 对 革 些 情况 ， 级 的 确定 是 一 
个 很 困难 的 问题 。 直 于 此 问题 与 统计 应 用 关系 不 大 ， 在 此 不 细 谈 
了. 

以 上 我 们 假定 了 总 体 是 一 维 的 .车 总 体 为 多 维 ， 情 况 也 类 似 。 
只 有 一 点 需 注意 ， 在 一 维 情况 ,次序 统计 量 按 大 小 排列 ,其 意义 很 
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箔 楚 。 在 多 维和 情况， 次 序 就 不 清楚 ， 但 这 关系 不 大 。 设 羡 ,,…， 
到 。 是 从 一 多 维 总 体 分 布 到 中 扫 出 的 简单 样本 ， 因 之 每 个 天 均 - 
属 多 维 ， 引 进 一 个 统计 量 了 了， 
了 一 (有 9， 有 一 人 (3.3 ) 

这 里 括号 的 意义 是 指 集合 。 就 是 说 ， 了 人 了 就 是 由 以 这 各 个 样本 为 
罗素 构成 的 集合 ， 但 还 有 一 点 细微 的 莹 别 ， 在 通常 集合 论 中 ， 重 
复 的 元 素 只 计 一 次 ， 此 处 则 不 然 ， 重 复 的 都 要 保留 .在 这 样 的 定 
义 之 下 ,2 3 关于 了 的 充分 性 的 论证 可 不 作 任 何 改 变 用 于 此 处 的 
人 .关于 了 的 完全 性 对 多 的 要 求 ， 也 与 一 维 情 形 一 样 ， 这 一 点 不 
深入 了 。 因 此 ， 定 义 U 统 计量 的 前 提 仍 适合 ， 而 我 们 奶 可 德 着 前 
而 的 思路 达到 定义 3.1。 

有 的 读者 可 能 会 对 (3.3) 这 种 类 型 的 统计 量 全 感到 不 习惯 ， 

因 它 不 取 实 数 或 实 问 量 为 值 ， 其 实 ， 在 统计 量 的 一 般 定义 中 ， 主 

要 之 点 是 其 “ 值 ?“〈 广 义 的 值 ， 如 集 、. 函 数 之 类 ) 只 取决 于 样本 。 
是 否 取 实数 值 并 不 关 紧 要 、 读 者 还 应 注意 ，( 8.3 ) 定义 的 个 ,其 
实质 在 于 要 “忘掉 ?原样 本 中 7 项 的 次 序 ( 即 革 , 最 先 ,其 次 下 ,等 
等 )， 这 与 在 一 维 时 把 2 项 按 大 小 重 排 起 的 作 用 完 全 一 样 。 故 
《 3.3 ) 与 次 序 统计 量 是 貌 异 而 实 辣 ， 

举 一 个 简单 例子 。 

例 3.2 设 太 为 二 维 分 布 ，. 多 为 所 有 那些 其 二 阶 矩 ( 两 个 分 
景 的 二 阶 撼 ) 有 限 的 二 维 分 布 族 。 又 (AN AKa) 一 1 和 为 - 
抽 自 总 体 下 的 简单 样本 . 要 依据 它 去 估计 8( 刁 ) 一 总 体 协 方差。 

若 记 人 二 (Ly) 则 易 见 h(Xi, =X XK 
广 ,; 是 98( 玉 ) 的 一 个 无 偏 合计。 于 是 ， 按 (3"1) 有 


Un Eh (KR 0) 和 


求 和 范 划 为 1 ls 1 所， 1 iH， 经 过 简单 计算 ， 得 
U, = Ds 
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其 中 闷 = 写 Xs/n。 这 就 是 通常 的 玲 让 协 方差 ,本 例 的 玫 满足 


使 ( 3.3) 害 义 的 工 为 完全 统计 时 之 条 件 , 洒 此 证 有 明了， 在 所 说 的 
总 体 分 布 族 之 个， 样本 协 方差 是 总 体 协 方 关 的 最 小 方差 无 仿 佑 
计 ， 

二 、 必 统计 量 的 定义 ， 两 料 本 增 况 

在 一 段 中 ， 我 们 考虑 了 样本 是 从 一 个 总 体 分布 环 中 抽出 的 情 
说 。 旭 在 第 一 章 中 交代 过 的 ， 这 类 问题 在 统计 下 统称 为 “一 样本 
问题 *, 所 谓 * 多 样本 问题 "?， 则 是 指 在 同一 统计 和 装 题 中 涉及 多 于 一 
组 的 样本 ,每 组 样本 系 从 某 一 总 体 中 抽出 .在 这 类 问题 中 局 统计 基 
法 也 常 有 月 ， 特 别 是 两 组 的 情况 。 故 我 们 就 这 个 情况 米 讨论 ， 

设 有 两 个 总 体 ， 其 分布 分 别 为 和 G ,假定 下 属于 某 分 布 族 
多， 而 GG 展 寸 某 分 布 族 多 。 设 有 一 个 定义 于 字 X 久 上 的 实 值 泛 函 
94F,G)。 从 总 体 下 中 抽出 简单 样本 苹 ,,…，X, 而 从 G 中 抽出 
简单 样本 了 ,,… ,了 Ys。。， 县 设 六，， 1 :了 ss 全 体 独 立 。 
要 利用 这 些 样 本 去 估计 8(F,G)。 

推理 的 过 程 与 一 样本 人 情况 相同 。 先 设法 找 记 一 个 亢 数 h(xi， 
"mn A ud REX, Rn; ,Ym) 沪 QF ,GG) 
的 无 侦 仿 计 。 接 着 ， 利 放 每 纽 样 本 独立 同 分 布 ， 而 两 组 样本 独 
开 ， 知 对 任何 互 不 相同 而 不 超过 和 的 和 2， …simi 此 互 不 相 问 
而 不 超过 4%, 的 J1;12， 和 sf m2 hCG sin; Ys 了 yw) 也 
是 0( 天 ,G) 的 无 仿 估 计 。 把 所 有 这 些 加 以 平均 ， 得 到 

Lo 人 (人 Ys Y,,) 

1 

MG DH HT RN I CH ma tL) 
DIN m1 A. ni) (3.4) 


马 * 表 示 求 和 的 范围 是 满足 刚才 描述 过 的 那些 条 件 的 (821,… ,tm 
13s fn), 
定义 3.2 (83-4) 确定 的 0 称 为 以 有 为 核 的 、 基 于 两 组 样 
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本 Xn 和 Ys, 的 忌 统 计量 。 

与 一 样本 的 情况 一 样 ， 避 以 证 明 在 一 定 条 件 下 ， 这 样 定 义 的 - 
号 67,G) 的 最 小 方差 无 偏 估计 ,这 条 件 就 是 ;多 和 多 这 两 个 
分 布 族 孝 满足 定理 2'7 中 施加 在 分 布 族 . 多 上 的 条 件 。 细 节 这 里 不 
涉及 了 。 

当天 分别 对 两 组 变量 为 对 称 时 ， 也 就 是 说 ， 当 ym; 国 
定时 下 是 zxm: 的 对 称 请 数 ， 而 当 %,…' xm 圈定 时 ， 刀 为 
总 ，… Yms 的 对 称 函 数 ， 则 《3.4 ) 式 可 简化 为 

Casis Bice mn h(Xs, 人 及 in 了 了 5， ES mV 


ES 了 < -<imaang 


HI Rs . 
ns 5 
当天 不 为 对 称 时 ， 也 可 以 先 将 其 对 称 化 ， 即 用 函数 

Ra》 一 DhXi ss Kimys V4 
Jim3)7920 14s! 去 代替 有 。F** 表 示 求 和 范围 为 : (五 ,zi) 是 : 
1… 和 0020 的 一 切 置 换 ， 而 (7 ,fmz) 是 1,… ,fs 的 一 切 置换 。 

例 33 把 变量 开设 想 为 一 种 产品 在 一 定 工 艺 规程 之 下 的 质 
量 指标 ， 指 标 值 愈 大 产品 质量 愈 好 。 济 站 记 这 同一 产品 在 一 种 经 
过 改进 的 工艺 规程 之 下 的 质量 指标 。 如 预先 的 设想 正确 ， 则 工艺 
上 的 改变 应 有 助 于 提高 质量 指标 。 在 统计 上 反映 这 一 点 的 一 个 方 
法 是 ， 应 有 了 (XX<Y ) >172， 击 如 所 作 改 变 无 助 于 混 高 质量 ， 
则 应 有 (< 了 了) 二 1/2。 此 处 我 们 假定 六， 的 分 布 下 ，G 帮 
处 外 连续 ， 且 了 基 ， 了 独立 。 值得 注意 的 是 信 ， 了 了 的 意义 如 们 更 
般 . 占 于 同一 产品 不 可 能 晓 是 在 原 工艺 又 是 在 新 工艺 下 制造 的 ， 
天 ， 了 并 不 是 在 同一 件 产 品 上 基 出 的 两 个 值 ， 和 而 应 这 样 去 班 解 . 
从 原 工艺 下 生产 的 产品 中 随 梢 抽取 一 个 ， 量 得 其 指标 为 和 又 沙 
立地 从 新 工艺 下 生产 的 产品 中 随机 抽取 一 个 ， 量 得 其 指标 为 了 ， 

新 工艺 即使 比 原 工艺 有 所 改进 ， 也 不 能 保证 ， 在 新 工艺 下 生 
产 的 每 一 件 产 品 ， 其 指标 必 高 于 在 原 工艺 下 生产 的 每 一 件 产 品 。 
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而 只 能 说 ， 新 工艺 “ 俩 摧 末 ”生产 出 指标 和 较 高 的 产品 。 其 确切 含 
一 类 是 沁 >x 。 相 对 于 后 者 ， 前 一 类 属于 质量 较 芝 的 类 .在 原 工 艺 
下 这 一 类 产品 的 概 浴 为 PLX 志 Y) 一 (x)， 而 在 新 工艺 下 ， 其 检 
率 则 为 PIY 志 x) 一 Gix)。 如 灯 
GX) 和 CK) 对 一 切实 数 X，、 有 明生 G。 (3.6) 
测 在 新 工艺 下 ， 产 出 质 早 较 差 的 产品 的 概率 ， 总 不 超过 ( 且 有 时 
- 确 小 于 ) 其 在 原 工 艺 下 的 概率 。 在 这 个 意义 下 (注意 这 是 严格 的 
数学 意义 )， 我 们 说 新 工艺 下 产品 质量 优 于 原 工艺 ，。 
定义 3.3 车， 为 两 个 一 维 随机 变量 ， 具 分布 函数 分 别 
为 玉 和 和 .车 (3.6 7) 成立 ， 则 称 和 随机 地 大 于 革 ， 有 时 记 为 Y 
> 
如 时 分 布 环 、G 都 处 处 连续 县 式 ， 立 独立 ， 则 有 
POX<Y)=| TFs)dG) (3.7) 


《3:7 ) 易 用 条 件 概 方 法 证 明 ， 轩 定 了 二 x 。 由 于 玉 , 了 独立 卫 
-分布 百 连 续 ， 在 

PAX<YIYT= xX)=P(X<xIY=x)=F(x) 
皇 注 总 有 分 布 G， 即 得 (C37)。 当 让 ，Y 网 分 布 时 有 


[= Frac te =| Flx)adr (Cx) =| 好 =1/2, 


而 当 了 > 六 时 ，F(X) 之 G(x)，(3:7) 式 有 边 将 关 1/2。 因为 
下 和牛 G， 等 号 不 成 立 ( 严格 证 明 留 给 读者 ), 故 将 有 PCY 污 羡 )>> 
172。 

Y 旋 义 的 一 个 最 重要 的 例子 是 了 三 久 +6 而 9>>0.。 建 设 读者 
写 出 仔 幼 证明， 

设 更 在 我 们 分 别 从 原 工艺 和 新 工艺 下 抽出 其 2 个 和 2 入 个 产 
全 芝 得 其 质 蝇 首 标 分 别 汶 发 1 六 到 了 要 依据 
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它 米 控 验 假设 
到 :让 种 工艺 下 产品 质量 一 样 ， 即 下 王 G 
其 对 并 假设 为 
其 :新 工艺 下 产品 说 量 较 优 ， 中 (3.6 ) 成 立 。 
根据 前 面 的 讨论 ， 我 们 可 以 把 
0=0(F ,GC) 一 已 Ja(Y 人 > 三 ) 一 已 (了 > 三》 
作为 一 个 检验 的 基准 。 也 就 是 说 ， 我 们 努力 通过 样本 给 8 一 个 
蔗 好 的 信 计 。 若 紫 售 计 接 近 1/2， 则 我 们 无 充分 理由 否定 原 假设 
吾 . 及 之 ， 和 六 此 个 让 显 苞 大 于 1/2， 则 将 省 定 厂 。 为 估计 8 用 得 
答 了 统计 量 的 方法 ， 令 
天 (Xi a 当 和 (3.8) 
0， 其 他 
测 有 Eh(1; 1) 二 606。 于 是 按 定义 3:2， 以 它 为 核 而 产生 的 UU 
经 计 申 


e na 
Unins — > 了 (用 < ) /nins (3.9) 


t=1 ¥=1 

是 的 最 小 方差 泡 偏 估计 . 

为 了 计算 (3.9 ?> 式 右 边 的 分 子 ， 我 们 把 #1 十 7; 个 样本 按 上 由 
小 到 大 排序 。 田 于 分 布 连续 ， 可 以 假定 这 2 十 2 个 样本 互 不 相 
问 。 以 二 记 了, 在 这 个 排列 中 的 位 次 《 最 小 者 位 次 为 1， 其 次 
为 2， 余 类 推 ) RR, 称 为 了 〈 在 这 和 十 2 个 样本 中 的 )“ 秩 ?。 
于 基 ， 合 样本 中 有 正 , 一 1 个 小 于 了, ， 设 其 中 有 ci 个 了 样本 ， 
则 式样 本 有 R; 一 (C, 十 1 个。 这 些 卫 样本 与 了 配对 ， 在 (3.:9) 
式 分 子 中 产生 民 ; 一 (ci 十 1) 个 1， 因此 


(3-9 ) 式 的 分 子 = 台 (Ri 一 C1 一 1)。 
纪委 
因为 之 (Ci 1 一 1 十 2 十 … 十 ?一 ja(ja 十 1)/2， 故 
m2 
Usns=\ SR nt 1)/2) /nn ( 3.10) 
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按 首 而 的 讨论 ,得 出 如 下 的 检验 法 ， 当 Ca 超过 某 常 斤 C 时 ， 
否定 原 假设 吾 , 不 然 就 接受 刀 。 这 个 检验 叫做 Mann- Whitney 检 
验 ， 是 这 两 位 学 者 在 1947 年 提出 的 。 文 献 中 把 PR Urins 叫 位 
Mann-Whitney 统计 量 . 在 1947 年 时 尚未 提出 性 统计 量 的 概念 
尔后 明确 了 它 是 了 1 统计 基 的 一 个 简单 例子 ， 就 得 以 方便 地 证 明 其 
一 些 深入 的 大 样本 性 质 ， 

从 (3:10) 式 看 出 ，Mann-Whitney 检验 与 下 述 检验 等 价 ， 


记 呈 一 总 R,。 当 尺 大 于 某 常 数 C 时 ， 和 否定 原 假设 万， 不 然 就 接 


受 五 .这 个 检验 比 Mann- Whitney 检验 更 早 ， 它 是 Wilcoxon 在 
1945 年 堤 出 的 ， 在 文献 中 称 为 Wilcoxon 两 样本 秩 和 检验 ， 因 为 
民 是 了 样本 之 秩 之 和 ,这 个 检验 展 于 下 一 章 中 要 仔细 讨论 的 秩 检 
验 的 范围 和 信也 常 把 这 个 检验 称 为 Wilcoxon-Mann-Whitney 

与 用 于 估计 问题 相 比 ， 过 统计 量 用 于 检验 问题 稍 有 其 不 同 之 
处 。 在 估计 问题 中 ，6(E) (或 6 及 ,G)) 是 里 有 的 。 在 检验 问题 
中 ， 开 始 并 无 9， 而 要 求 找 出 这样 一 个 8, (1) 其 值 在 原 假 设 成 立 
时 是 明确 的 《如 8 一 b 或 9 去 0 之 类 )》.(2) 当 偶 岗 原 候 设 对 ， 
9 之 信 能 “敏感 地 ”反映 这 一 点 。(3) 容 许 用 局 统 计量 法 去 处 理 。 
这 样 的 8 有 时 无 法 找到 ， 有 时 可 以 有 很 多 ， 其 优 劣 不 易 在 直观 
于 淹 册 .例如 ， 在 本 例 中 千 假 定 了 有 分 布 G(x) 二 了 (x 一 4) ,4 之 0 
为 术 知 参数 . 则 Wilcoxon 检验 可 用 ， 但 也 可 以 取 8 就 等 于 4, 它 
这 以 5 下 进一步 假定 妨 有 有 限 的 数学 期 轰 ) 通过 核 h ( 玉 ,，Y, ) 
二 一 七, 用 UU 统计 量 法 去 处 理 ， 结 果 将 得 出 下 述 检验 ， 当 罗 一 
入 大 时 千 定 原 假设 。 这 于 界限 的 确定 比 上 例 要 复杂 虞 ， 因 为 一 
芯 在 原委 下 并 非 分 布 光 关 .可 大 单 从 这 两 个 检验 的 内 容 看 ， 直 观 
上 分 不 出 优 劣 。 这 当然 取决 于 共 他 条 件 。 在 下 -一 章 中 我 们 会 涉及 
这 个 问题 ， 现 在 再 考察 一 个 较为 复杂 的 例子 -， 

例 3.4 再 考察 我 们 曾 多 次 提 到 过 的 两 样本 问题 。 简单 样本 . 
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下 分别 扫 和 一 维 总 体 分 布 素 和 C ,内 假定 
五 和 G 连续 ， 其 他 -一 概 坟 知 。 要 检验 万 :二 6G 这 个 原 假 设 , 本 例 
与 例 3.3 不 一 样 之 处 在 于 此 处 未 假定 对 立 假设 有 “方向 性 ”。 因 
此 ， 如 仍 以 PL 之 Y) 作 指 标 减 不 恰当 因为， 当 玉 成 立时 轩 然 
有 P(X<Y)=1/2， 但 互 不 成 立时 ， 此 概率 也 可 以 是 1/2, 胃 之 这 
概率 之 值 不 构成 分 辨 原 候 设 和 对 立 假设 的 一 个 指标 ，。 

在 例 1:1 中 我 们 曾 指出 本 问题 的 一 个 检验 法 一 一 CMHpHOg 性 
验 , 这 答 验 有 “全 方位 ”性 ， 十 一 个 合 迁 的 检验 。 但 它 不 能 hyU 
统计 量 的 方法 去 处 型 ，。 

为 要 用 UU 统计 量 方法 去 处 理 这 个 问题 ， 必 须 找 到 这 样 一 个 8 
(天 ,GCC)。 它 能 反映 原 假 设 和 和 对立 假 设 药 差距 ， 上 用 又 有 一 个 简单 
的 元 偏 知 计 ， 这 种 9 ,G) 被 Lehmann 找到 了 ， 它 是 


oF,G)=| CFO) GCA) FACEF CX) + Gr) ), 


这 样子 的 8 能 反映 丘 与 G 的 差距 是 明显 的 ; 车 玉 = 一 G， 风 9， 
G) 一 0， 否 则 0 已,G)>>0， 且 一 般 说 ， 克 与 G 差 别 愈 大 ，( 严 (xy)》 
一 G(X))? 也 愈 大 ， 因 之 0( 已 ,G) 一 般 也 人 印 大 ， 故 上 述 第 一 个 要 
求 满足 了 。 下 一 步 是 要 找到 8 的 一 个 无 偏 估 计 。 我们 来 证 明 ， 

人 = 和， 了 ,了 


2 + Tmax( XX,,X,)<min(¥,,Y,)) 


+i(max(Y,,Y,)<min(X,,X,)), 
就 是 这 样 一 个 估计 、 事 实 上 ， 注 意 到 max{XX,. 人,), min (区 
和 ,maxg( 卫 7) min( 了 ,7 了 分别 有 分 布 苑 教 F(x),1 一 (1 一 
PK) G(X)，1 一 (1 一 G(x))*， 得 


EG+1/3)=|- [1 一 G(x)]20F2(x) 
+ [1 一 严 (z)]2CG20z)， 
把 [1 一 G(X)J] 等 展开 ， 有 未 项 积分 ， 使 用 分 部 积分 并 注意 dF ?= 


s B77 * 


2F4F 等 ( 这 只 在 下 连 续 寺 对 )、 得 
E+1/3)=2 + GrdF?Cxy + 人 FadGz(z) 


-4 _ FOG AP) + GU)) 


[| 


一 2 + 全 dP:CXIO CX)) 
-全 CF (WEG AF +O)Y 
+ EEC -GA TAF +O 


=2+1—8/3+0(F ,CG)=1/3+8(F,G), 


这 证 明了 E66 二 6。 于是， 以 太 为 核 ， 据 料 本 瑟瑟 。 和 五 
,wo 作出 局 统计 基 Vsins。 然 后 ， 当 10mwns| 超 过 蘑 界 限时 ， 百 
定 原 假设 五 。 界 限 的 确定 要 恢 据 检验 水 平 4， 并 用 到 Uiws 的 渐 
近 正 态 性 ( 见 83.2) . 

三 、! 统计 量 的 方差 

我 们 只 仔细 讨论 一 赃 本 卫 统 计量 的 情况 ， 因 为 两 样本 以 至 多 
样本 情况 在 方法 上 无 实质 小 异 。 

没 KL,… Xm) 为 对 称 核 ， 而 UV，, 为 以 五 为 按 的 。 基于 篇 音 
样本 广 ,，…', 度 ,的 局 统计 往 ， 记 Eh(X1,… ,人 wm) 一 90. 不 失 淮 这 
性 设 9 一 0， 不然 具 人 须 以 及 一 0 代 玉 .对 Cc 二 1,…,1y. 令 

eX Xo =E {h(E ,Rm = 

=E{h(Xi, Kos os} {3:11 
这 里 xxo 视 为 常数 ， 而 闫 ci; 匡 m 则 为 随机 变量 。 又 各 
说 是 有 及。 记 
023 一 Var( 玉 (有 有) C=1,., 
容易 看 出 ， 若 假定 以 全) 有 的 方 光 有 限 ， 则 53 天 co 对 < 一 
1 :7 。 事 详 上 (主意 已 假定 0 一 0) 
ERX XN) =E{E{h XR, ,7 Am) | XX 


ee = 
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=Eh(X,,…, Xn) = 0, 
故 Var(he( 六 4)y 芽 o)) 二 EC(X,…, 叉 o)。 由 《3.:11) 有 
ot— Ehi(Kk, Dy EE{EIh(X, 本 ;人 mn) | 下 
=EhR(X, 一 Var 下 mm)<coy 


一 之 ic<il<<incn E{h(Xis 人 :人 ) 


1eji<-<Im<n 
hs im)}, 
我 们 把 两 集合 二，… ,im} 利 | {711 fm} 的 公共 元 个 数 记 为 c 外 车 
< 一 0， 则 由 独立 性 及 9 一 0 之 假定 ， 有 
ERX ss CT sn) ) 
=EhnX rr KI Eh Xi in)—=0.0=0, 
著 5 关 0， 则 因 卢 为 对 称 函 数 ， 不 失 普 遍 性 可 假定 公共 元 即 为 ll 
2，… ,Cc。 这 时 有 
ECRCOXe si RX ,Ng,)) 
= E{E{h(X ,KRCE An) | }} 
=E{E(h(X | ) 
“ECh(CXg 
=ECAX,, Xo) = Var(he( Ki, ,No)) =0, 


而 这 样 的 项 一 共有 ( 区 多 双关 总 工区) 个 ,事实 上 ,从 1;2,…,2 中 氟 
选 二 个 足 标 下 im， 有 ( 如) 种 挑 法 。 寞 ,…sia 挑 定 后 ， 从 中 挑 
出 那 C 个 与 {7 ;加 } 公共 的 有 { 如) 个 挑 法 .到 此 为 止 ， 放 加 
已 定 下 了 5 个 ， 琵 下 的 x 一 C 个 ， 必 须 从 和 sz 以 外 那 4 一 1 
个 足 标 中 去 挑 ， 挑 法 为 《六 二 中) 故 得 上 述 结果 。 由 此 可 向， 


ea 89 。 
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bp 这 i T 古 ， 了 一 7 于 
a 1 .~ : 2 
Var 人 zz CU,, < 本 (we / 0 Cs? 
厢 
=( HY SR nC— _ 
Var(U.,) ee De 《3.12) 


了 两样 :情况 与 此 奖 似 ， 但 细节 上 咯 当 腥 -- 直 ， 这 里 我 们 只 将 


结果 上 当下， 而 建议 读者 身 己 把 细节 补 出 来 . 设 wire 由 《3*5) 定 
对 0 M0Ed 所 Ms， 引进 丽 数 
hcalXis Kos Vigrrs Va EELh A, , ,Am 
Yi Tm) | 
一 和 po 
Y= Ya ye)} 
=E{h(x ,Xe ;有 sr 
02 一 Var(Pa(X 3)， 注意 ca2 一 洲 
则 
Vor = 和 的 ) 衬 2 (2 ) (i ) (他 ) 


(pi) C3°13) 


值得 注意 的 是 ， (3:12) 和 (3.13 ) 都 是 以 对 称 校 为 出 发 点 
的 ， 当 核 非 对 称 时 应 先 将 其 对 称 化 。 

例 3.5 据 例 3.1 ， 样 本 方差 为 U7 统 计量 。 其 核 经 对 称 化 
后 ， 为 Ra) 一 (一 %)272。 仍 设 总 体 分 布 瑟 之 期 望 为 bg 其 
k 阶 中 心 矩 记 为 Hi 设 Ho0, 有 


{ri 一,)*/2} 一 六 ( 允 十 4)， 
1 一 Var (Ch, CX )) = Var(X: )= 地 (一 到) 
GE 一 Var{f( 开 ， A 


= 地 (ECX,— XK ):—[ECR,—X,)]) 


4 O00 。 


二 (和 十 得 )， 
包 此 代入 《3:12)， 径 
1 ww _ 2 ee 红 一 3 。 
Var ( ZX, 及 ) > ne Wi, (3.14) 

例 3:6 考虑 (3:9) 式 记 定 义 的 两 样本 了 1 统计 量 , 此 处 9, 一 
1z: 一 1。 因 天 ， 王 分 别 有 和 分 布 严 ，C， 且 天 ，G 处 处 连续 ， 又 
h(x 9) 一 7 加)。 于 是 有 

(KX) =1—G(xr), oF=Var(G(X)) 


=| G(x)dF(x)—{| GiradF(x)) 
(y= FY.), of = Var( FY,)) 
= Fa (xz)dG(z) 一 (FepaGcm ) 
oi =Var(T(X,<Y)) 
-=| Fenpacco (| Fooaccom 


2 
$9 


所 (3:13) ,对 订 例 有 


Var (Um (1) + Cm 10s + or,). (3-15) 
下 


将 曲面 求 得 的 0,?、03, 和 03, 的 表达 式 代入 此 式 ， 肝 乔 se 的 
方 关 安达 式 ， 其 偿 依 赖 千 分布 忆 和 G， 在 原 偿 设 一 G 成 立 的 竺 
例 关 《 法 村 用 至 分 布 的 运 续 性 )， 有 
om oo . 
| Feo ecoD=| Gl dF w=| tdt=1/2, 

一 只 0 


| F(xdGr) 一 | 704PF(O 一 | tdt=1/3, 
代入 《3.15) ,可 知 在 这 个 特 浆 情 误 韦 有 
Var(Usins)= (+R+1)/12nn, (GF=G), (3.16) 
此 甫 法 式 不 依赖 士 廊 。 这 点 是 秩 统 计 香 的 共性 ， 见 84.1。 
焉 、 妃 统计 最 级 相合 性 
。 O01 se 


设 Cs 是 以 及 《Xm) 为 (对称 ) 核 的 、 基 于 简单 样本 
Xs 的 UU 统计 量 。 设 hlX, ,Km) 为 0=0(F) 的 无 偏 
个 计 ， 则 UU 也 是 8 的 无 侧 佑 计 。 由 方差 的 表达 式 (3:12 ) 易 
知 ;，U， 作为 8 的 估计 还 是 相合 的 。 事 实 上 ， 由 《3'12) 吻 得 出 

lim nVar(U,) 二 22071?， 轩 而 lim Var =0， 即 lim EU,— 
9 二 JV。 这 表明 当 % 习 so 时 ，U， 依 二 阶 惩 收 伍 5 常 称 为 均 方 收 
分 ) 于 9, 邮 Us 是 “二 阶 撼 相合 ”或 “ 均 方 相合 ”的 ， 当 然 更 有 
弱 相 合 性 ， 即 ,一 >9 当 X>% 时 ， 在 下 一 - 节 中 我 们 将 要 证 明 ， 

当 一周 ，U。、 有 渐 近 正 态 性 ，Z7。 的 弱 相 合 性 是 这 个 结果 的 一 
个 简单 推论 ， 但 均 方 相合 性 不 能 从 新 近 正 态 性 推出 来 。 

在 两 样本 的 情况 ， 有 方差 表达 式 (3.13) ,由 核 表达 式 容易 看 

出 ， 当 
Ri~>ooy 他， 一 > CO 
时 ， 有 
Var sn) 0 
于 是 证 明了 Unins 的 均 方 相合 性 与 弱 相 合 性 。 洪 %1、 3% 中 有 一 
个 不 趋 于 >o， 则 这 一 点 不 成 立 。 


83.2 了 统计 量 的 渐 近 正 态 性 及 其 应 用 


UU 统 计量 是 美国 统计 学 家 Hoeffqing 于 1948 年 在 一 篇 论文 
中 提出 的 。 在 该 文中 Hoeffding 证 明了 UU 统计 量 的 浙 近 正 态 性 .。 
由 于 有 了 这 个 良好 性 质 ， 忆 统计 量 才能 更 方便 地 用 于 种 种 统计 问 
题 ， 

一 、 一 样本 情况 

定理 3.1 设 ixz…xm) 为 对 称 函 数 ，V7。 为 以 六 为 核 的 、 
基于 简单 样本 疙 ,,…' ,六 的 也 统计 量 。 设 


ERCX, ,Xm) < 91>0, (3:17) 


ee G2 。 


其 中 芝 =Var( 有 (X11))， 而 函数 及 (xX1) 由 (3.11) 式 定义 。 则 当 
4 六 2 时 有 
MR (Us—0) —>N 0,m0’), Cols? 

而 日 一 五 (PXI 

在 证 明 本 定理 前 对 其 形式 作 些 解释 。 首 先 ， 因 天 ECU。,)=8， 
,一 9 就 是 中 心 化 。 前 面 乘 数 v7 的 得 来 ， 就 要 考 吃 DT 的 方 
差 。 由 (3'12) 式 易 知 ， 当 加 加 定 而 ->oo 时 ,VarCUn) 为 112 的 
数量 级 ， 故 乘 以 因子 W 区， 至 于 极限 分 布 之 方差 410;， 也 不 难 
-看 出 。 事 实 上 ， 术 《3.:12)， 有 

lim Var( Vn Un) =m071, 

对 方差 表达 式 《3:12 ) 绷 加 分 析 ， 也 指示 了 证 明定 理 3.1 的 

方法 、 事实 上 ， 考 虚 (3.12 ) 可 知 ，U， 的 方差 包含 01 一 项 ， 其 


数量 级 为 OU 二) 而 包含 2 的 项 ， 当 cs 2 者, 其 数量 级 为 


人 O(- 直 -)， 相 对 于 O( 二 ) 而 言 都 是 高 阶 无 穷 小 ,而 o 是 来 自 于 


~、 


函数 加 见 3.11 ) 式 .由 此 启发 我 们 ， 妾 达 式 名 有 (XX,) (经 过 


和 通 当 规则 化 》 构成 UV, 的 主要 部 分 。 而 这 表达 式 作为 独立 同 分 布 
和 ， 按 Lindeberg 中 心 极 限定 理 ， 依 分 布 收敛 于 正 态 分布， 
:不 失 普 遍 性 令 6 一 0.。 令 
WV RU Vm hlX) 
Ht=1 

而 来 计算 ,= 二 ECOW ,一 VY,)*。 有 

C=nVar(U) + Var(V.) —2ECW.V,) 
前 已 指出 ,lim 2zVar(Z。) 一 Asal 又 Var(Ys) 一 MaVar( 甩 (大 


== 01, 以 及 


号 903« 


EWV Y=—m: E(B U(X) )=mnE(Us h(X)), 


《3*I19 下 
考虑 表达 式 ECh(X in)h(X))., 注意 8=0。 若 i1=1, 
出 此 项 为 

E{EChR(X us Kh KR )}= ENCX)=0, 
这 种 项 的 数目 为 ( 免 二 了 )。 车 记 >1， 则 该 项 为 0. 由 此 可 知 
-1 二 Hi 2 
ECV Cx) = (0) (1 ) oN 
以 此 代入 《3'19 ) 得 (WoV,) 二 14201。 综合 上 述 事实 ， 得 lims 


EW 一 V0) 二 0。 于 是 WW 应 与 VY。 有 相同 的 极限 分 布 . 而 气 
Lindeberg 定理 ，Y。 有 极限 分 布 N(0, ?m201)。 于 基 证 明了 定理 
3-.1, 

本 定理 的 证 明 是 32 .2 提 到 的 ( 见 (2.27) 式 下 面 一 段 说 明 ) 
一 个 一 般 原 则 的 又 一 具体 使 用 ， 即 为 证 明 某 量 有 渐 近 正 态 性 ， 设 
法 把 该 量 分 鳄 为 两 部 分 之 和 ， 其 一 部 分 为 一 些 独 立 随机 变量 之 
利 ， 其 渐 近 正 态 性 出 独立 和 的 中 心 极 限定 理 去 处 理 : 另 一 部 分 为 
余 项 ， 它 在 概率 上 是 无 穷 小 ， 可 以 怨 略 不 计 ， 或 更 确切 地 说 ， 这 
一 项 当 样 本 大 小 ## 趋 于 无 穷 时 ， 依 概率 收敛 于 0。 

广 1 。 在 本 定理 条 件 下 显然 也 成 立 


(U0 VU 二 NoD)， (3.20 ) 
而 且 ， 由 于 (U, 一 9) /MV VariD。) 有 方差 1( 等 于 入 (0,1) 的 方 
差 ) ， 一 般 说 来 ， 对 同一 个 hn， 它 的 分 布 比 起 变量 MN (U，, 一 
9)/ (no1) 的 分 布 ( 其 方差 小 于 和 N(0,1) 之 方差 ) 来 ， 要 更 接近 
N(0,1) 一 些 , 在 不 少 应 用 例子 中 ， 至 少 在 原 假设 成 立 之 下 ，Var 
《U0U,) 可 算出 且 与 总 体 分 布匹 关 一 一 只 要 总 体 分 布 属于 原 假 设 ， 
在 这 种 情况 之 下 ， 当 然 可 以 而 且 应 该 直接 使 用 《 3:20) 而 不 必 抑 
这 于 Hoeffding 定理 的 形式 (3.18) 。( 3.18) 有 这 样 一 个 优点 ， 


9 并 


如 果 Var(U,) 在 原 假设 下 并 非 * 分 布匹 关 ”, 则 无 论 用 ( 3.18 ) 还 
是 (3"20), 其 中 之 cl 或 Var(U,) 孝 须 通过 样本 去 估计 ， 但 估计 
z: 比 估计 Var(Z7J) 要 容易 些 ， 

赴 2。 在 83.1 的 四 中 ， 我 们 曾 在 五 (天 ( 瑟 ,，…， 环 mw))<=o 
草 条 件 下 ( 卢 为 核 。 注 意 这 条 件 保证 了 Z7。 的 方差 有 限 ) ， 证 明 
了 UU。 作为 8 的 估计 ， 为 均 方 相合 及 弱 相 合 。 利用 定理 3,1 的 证 
法 ， 在 这 同一 条 件 下 很 容易 得 出 ，U。>9、a,s,; 即 0 也 是 6 的 
强 相合 估计 。 证 明 梗 概 如 下 ， 由 定理 3.1 证 明 中 的 计算 易 看 出 : 

EC XO EW -V0(- 二) 
和 给。 。 是 定理 3.1 证 明 过 程 中 引入 的 记号 .由 上 式 ， 用 debumes 


己 已 | U0 一度 ACK,) | > )<% 


子 是 知 
lim ( U,— 江 六 htX,) )=0, 3a.S。 (3:21) 
用 一 9 2 f=1 : 
按 KomMoropoB 强大 数 律 ， 且 Eh(X)=8=0( 已 假定 0 为 0 ) ， 
知 六 > ja( 飞 |)->0，a.S。 于 是 77。>0，a.S。 
若 一 开始 不 假定 9 二 =6， 则 (3.21 ) 要 用 
lm { CD 一 9) 一至 SE K-00, as 


去 取代 。 由 KonmoropoB 定理 有 总 Ch 有 (站 一 9)/n->0，a,s。 故 


- 仍 得 UU,->0 ,23.8。 

从 理论 的 观点 看 ， 这 个 结果 有 一 个 不 足 之 处 ， 即 假定 了 核 
表 ( 太 1,…; 莹 m) 的 二 阶 短 有 限 ， 而 在 Komoropoa 定理 中 只 假定 了 
一 阶 逢 有 限 。 是 否 可 以 只 在 琅 | 有 (于 ,,… ,Xm) |< 之 co 的 条 件 下 证 
明 UV， 的 强 相合 性 呢 ? Hoeffding 在 1961 年 首先 肯定 地 回 答 了 
这 个 问题 。1966 年 Berk 发 现 了 如 U 统 计量 与 怠 的 关系 ， 因 而 能 很 
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入 单 地 推出 这 个 事实 。 这 些 与 统计 应 用 关系 不 大 ， 故 网 节 在 此 从 
略 了 。 

二 、 两 样本 情况 

在 两 样本 情况 下 , 也 统计 量 渐 近 正 态 定理 的 证 明 方法 ,与 一 样 
本 情况 完全 类 似 ， 放 此 处 只 给 里 定 理 的 陈述 ， 证 明细 节 从 路 了 。 
读者 如 有 兴趣 ， 频 当 毫 无 困难 地 把 它 补 出 来 。 

仍 以 Un 记 以 R(X sy fms Vie m2) 为 《对称 ) 税 、 
基于 简单 样本 瓦 1 .0 及 YY …， Fing 的 芝 统 计 最 ， 0=Ek 
CX 一 Uning。 024 的 意义 同 83:1, (三 )。 

定理 3-2 设 

EpPCOX ,Rn Yass Yn) <00,01>0, 001>0, 

又 记 入 二 7 十 KU， 太 


站 2 2 
osm—N ( oi0 + 2 or ), (3'22> 
大 当 ?2 -> ce，j~>ce 时 ， 克 
人 
MN(CU,ina— 0) /On na —>N(0,1)., 《 3"'23 >》 
定理 3*1 的 诗 1 在 此 当然 也 适用 。 即 在 本 定理 条 件 下 也 有 


(Cn 一 9)AAA Var (Uning) —— >N(0,1). (3.24) 

三 、 应 用 

把 $3.2 的 结果 用 于 大 样本 统计 推断 ， 其 原则 是 简单 的 。 以 . 
两 样本 情况 《这 个 情况 在 统计 应 用 中 比 一 样本 情况 要 更 常见 些 ， 
尤其 在 检验 问题 中 ) 为 例 说 明 一 下 。 

1。 假 设 检验 . 设 641ws 二 Var(Uniwo) 在 原 假设 下 为 “分 布 无 关 *» 
即 为 一 已 知 常数 ， 这 时 当 原 假设 五 成 立时 ,有 (Uing 一 00)/6n.no 习 
NC(0,1)， 此 处 0, 为 8 在 及 成 立 之 下 的 秆 ( 或 在 吾 的 边缘 处 之 
值 ， 见 例 3.7 》 这 里 也 就 假定 了 : 8 在 正成 立时 也 须 为 “ 分布 无 . 
关 ?。 又 此 处 记号 人 是 指 分 布 接近 。 有 了 这 个 关系 ， 若 原 假设 下 
为 :9 一 go， 则 水 平 s 的 《大 样本 ) 否定 域 可 取 为 |UD5jns 一 9061- 

» 日 全 * 


wnatia/l 。 若 五 为 : 9< 委 9， 刚 否 定 域 可 取 为 Uing > O60 二 Binalie e 

如 果 5s,ms 依赖 于 总 体 分 布 ( 即使 在 吾 成 立时 ) ， 则 我 们 要 
使 用 (3.23)。 根据 《3.22), 为 估计 caiw。， 需要 估计 cz 和 cs 。 
这 一 点 等 到 本 节 末 尾 再 谈 ， 顺 使 说 一 句 ， 在 一 些 重 要 例子 中 前 一 
情况 为 多 ， 因 为 iniwz “分布 无 关 ?， 常 是 典型 的 非 参数 方法 的 特 

2. 区 间 估 计 这 时 不 论 从 (3:23 ) 或 (3.24) 出 发 都 可 以 。 
但 如 用 前 者 ， 必 须 得 到 cl 和 093, 的 估计 。 如 用 后 者 ， 必 须 得 到 
VarGCvnnz) 的 估计 ， 且 这 种 估计 必须 对 一 切 严 .G 去 做 ， 而 不 止 
限于 下 ==G 时 ， 所以， 在 假设 检验 的 情况 ， 如 当 瑟 ==G〔 或 其 他 
原 假 设 ) 时 Var(Uaiwns) 为 已 知 常数 ， 则 估计 Vart0wing) 的 任务 
可 免除 ， 但 在 区 局 信 计 情况 、 纵 使 这 一 点 成 立 ， 仍 不 能 免除 估计 
方差 的 问题 。 

例 3.7 再 考虑 例 3.3。 根据 《3.24 》 及 (3.16) , 知 当 原 候 设 
人 三 GG 成 立 ， 且 当 ?> co， ?acoe 时 ， 有 


\ RS 
NM 12n1? 12ni7a\ Urina—)/ w 而 于 到 Ti 学 N(0,1), 


于 是 得 到 检验 问题 

五 :fF 二 Ge>K:G(X) 志 F(X) 对 一 切 x*， 且 于 G 的 水 平 a 
的 大 样本 否定 域 为 

De>> 王 十/ tt te C3.25) 
这 就 是 大 祥 本 单 便 Wilcoxon 检验 。 当 ?xyzza 都 不 大 时 ， 可 根 
据 Uninz 在 原 假设 下 的 确切 分 布 定 出 扯 限 。 不 少 统计 袁 中 载 有 有 
关 的 表 , 例 如 可 参天 中 国 科 学 院 数 学 研究 所 概率 统计 室 所 编 的 常 
甩 数 理 统 计 寄 >。 

例 3.4 的 情况 与 此 类 似 一 一 当 原 假设 五 =G 成 立时 ，Var 
《Lo 也 是 “分 布 泡 关 ”其 计算 略 繁 但 不 难 ， 我 们 把 它 留 给 读 
者 作为 练习 


@ 日 7 


例 3.8 设 共 各 元 件 半 傅 世 的 分 布下 处 处 连续 ， 居 (0) 一 0。 
记 FCX) 二 1 一 F(X)， 有 

P 忆 《元 件 寿命 至 少 尚 有 5 元件 在 时 刻 芋 尚 未 失效 》 

=P(X>s+i|IX>1)=F(S +1)/F(t), 
设 所 考察 的 时 间 不 太 长 ， 而 可 假定 在 这 段 时 间 内 元 件 无 老化 改 
用 ， 则 上 述 条 任 概 率 应 与 从 起 始 时 刻 上 = 0 处 计算 者 相同 ， 即 

原 (S 二) 页 (1 ) 一 页 (SS)，3D>0 1>0 (3.26) 

所 以 ， 溢 我 们 要 检验 (在 一 般 时 间 内 ) 元 件 无 老化 ?前 原 假 设 互 ， 
则 相应 到 分 布 上 这 假设 可 写成 (3'26 ) 的 形 开 。 其 对 并 假设 下 是 
“元 件 有 老化 ”. 这 意味 着 当 元 件 用 了 一 段 时 间 上 以后， 它 至 少 青 
能 用 s 这 么 久 的 概 深 不 如 从 一 开始 用 s 这 么 久 的 概率 。 这 导致. 

K:FCS+t)/F(OOLES), sO0, tO, 《3:27 ) 
现 随机 抽出 4 个 元 件 ， 测 得 其 洗 命 为 义 ,,…, 文 ,。， 它 们 是 的 
简单 样本 。 要 据 以 检验 HH< 一 >K 太 ， 

本 问题 的 总 体 分 布 族 是 

多 = 二 {Fi:F(0)==0。 玉 在 (~%o，co) 处 外 连续 }， 
根据 及 ， 下 的 写 义 ， 由 下 式 沦 义 的 

oc = | {ERO BU) ~ Fls+t)IadF sdF dt) 

是 衡量 原 假 设 吾 写 对 并 假设 太 之 间 的 差距 的 一 适当 指标 ， 当 五 成 
立时 6) 一 0， 否 则 8CF)>0。 这样， 诛 检 验 问题 转化 为 HH: 
8 (=0<->K:9(F)>0。 因为 


人 FepaEde = PDF) | 全 人 Fepagdp 
工 
= 人 0 +| tdit=1/2, 
0 
中 到 
| s + fAFCSIdFCt = P(X SX, + XY) 


* 8. 


床 实 上 ， 辕 定 三 ,二 3 ;二 ,而 在 此 条 性 下 求 事件 {这 | 这 全 ,十 
注 小 的 条 件 概 率 ， 结 果 为 责 (s 十 上 .再 利用 公式 已 (到 > 二 :十 
全,)) = 二 Ey(Pr( 六 > 站 .十 让 ,| 芝 ,, 臣 ,)) 即 得 ， 由 上 述 结果 可 知 


8(F)=— — Pr(X,>X,+X,). (3.28 )》 
0 9 (Xi Xs Xs) 一 于 一 ICxi> 各 二 和) , 则 9g (六 1, 芝 。, 汪 8) 汶 8(FF) 


之 一 无 偏 估计 。 将 9 对 称 化 ， 得 对 称 核 
h(x Xs: Xs) = 了 一 于 {T(xo> 和 十 区 ) 


十 7 COtD> 和 十 拉 十 (YX 十 YX) 。 
刀 此 为 核 的 、 基 于 样本 七,,… ,区 ,的 UU 统计 量 U,， 是 8CF) 的 
最 小 方差 无 偏 佑 计 。 经 过 繁复 但 不 困难 的 计算 ， 得 知 对 此 核 而 
言 ， 在 原 假 设 百 成 立时 有 ci 一 5/(432.9)。 又 此 处 下 王 3， 因 此 
jl203 一 5/432. 于 是 据 (3.18 》 有 


YY 
AU 一 >yN(0,5/432)， 当 太 成 立时 。 
损 此 得 出 吾 < 一 > 玉 的 水 平 4 大 样本 检验 ， 其 否定 域 为 


U, >~v 5/(4327) 2 
如 以 前 曾 指出 的 ,在 检验 问题 中 ,6 的 选择 有 一 定 的 灵活 度 ， 
不 必 只 有 一 种 方法 。 拿 本 例 来 说 ， 一 个 看 来 也 很 合理 的 选择 是 
aI | | “CFCS) FO) — FOS+H) PAF(S)YAF Gt), (3°29 ) 


可 以 找到 2F) 的 一 个 无 偏 估计 ， 只 依赖 也 ,,… ,六 ;。 我 们 把 这 
个 六 不 下 难 的 局 题 留 给 读者 作为 练习 。 在 这 个 无 偏 估计 的 基础 上 
册 卫 统计 量 法 检验 瑟 < 一 > 尼 ， 其 过程 与 使 用 8C5) 时 完全 类 似 ， 
这 两 个 检验 何者 为 优 ? 这 问题 就 不 那么 容易 回答 。 一 个 考虑 是 比 
较 一 者 的 极限 分 布 的 方差 ， 小 痢 为 优 。 但 是 ， 方 差 小 可 能 是 由 于 
所 选 指标 的 “灵敏 度 ” 不 高 。 可 靠 的 比较 要 依据 各 检验 在 对 立 假 
. 设 下 的 功效 ， 可 参看 84.2。 


* Ogs 


读者 一 - 定 注 意 到 ， 在 原 假设 成 立时 ， 媚 就 是 指数 分 布 ( 有 密 
度 te-** 870Y>0)，14>0 为 参数 ) 。 因 此 ， 本 问题 无 非 就 是 -- 个 
检验 一 组 样本 是 否 抽 自 某 一 指数 分 布 的 问题 ， 它 也 可 以 用 通常 的 
妇 拟 合 优 度 检 验 法 去 处 理 。 另 外 ， 本 问题 也 可 以 用 带 参 数 的 
KonMoropos 检验 去 做 ， 见 $4:6。 

例 3.9 Kendall 的 + 检验， 

设 ( 玉 ,了 ) 为 二 维 随机 向 量 ，(XX,, 了 0), /二 1,…:, 1H， 为 其 入 
单 样本 。 我 们 要 检验 原 假设 

及: 久 ， 了 独立， 
在 初等 统计 中 ,往往 假定 (了 ，Y ) 有 二 维 正 态 分 布 N(a,58,03, 
03,p)。 这 时 ， 罚 ，Y 是 否 独 立 ， 取决 于 p 是 尘 为 0、 而 检验 癌 
题 成 为 p=0<-> p 了 郑 0。 如 果 事 先 根据 问题 性 质 知道 ， 当 不 独 立 - 
时 必 为 正 相关 ， 则 检验 问题 成 为 p= 二 0<->p>0, 此 处 我 们 并 未 对 
《 革 ， 六 ) 的 分 布 形式 作 任何 假定 ， 故 必须 找 一 个 能 反映 独立 和 不 
独立 之 间 的 差异 的 指标 8==8( 玉 )( 下 是 (X.Y) 的 分 布 〉》 ,假定 对 
立 假 设 为 正 相 关 ， 则 一 个 看 来 合理 的 指标 是 
8=Pp((X XY,—Y,)>0) (3.30) 


琴 由 是 这 样 的 ， 当 其,Y 独立 时 ，9 显然 为 圭 ( 假定 总 体 分 布 丈 


处 处 连续 ) ,这 一 点 请 读 省 自 还 。 当 一 ,7 为 正 相 关 时 ， 半 的 增加 : 
《下 降 ) 倾向 于 使 六 也 增加 (下 降 ) .因此 若 XX, 放 革 ,(X ,之 下,)， 
熏 向 于 有 YY,>>Y,(Y ,< 之 Y,)。 这 样 ，( 玉 ,一 六 ,)(Y 一) 更 倾向 : 
于 大 于 0， 而 0 之 值 将 大 于 1/2。 这样， 我 们 的 检验 问题 成 为 

圳 :X,Y 独立 (这 时 90=3)< >K:0>1/2. (3.31 ) 
读者 应 当 注 意 本 例 与 例 3.8 的 差别 。 在 例 3-8 中 ， 当 原 假设 不 成 
立时 按 老化 的 定义 应 有 页 ( 3 + 1 )<< 二 (3) F(),， 于 是 在 该 处 
2g>0 是 一 顺理成章 的 结果 。 唯 有 这 样 ， 检 验 问题 {无 老化 二 > 有 
老化 } 才 可 以 说 转化 成 {6=0< 一 >9>>0 ,此 处 则 不 然 ; “ 正 相 关 ? 并 . 
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无 确切 含义 。 因此， 我 们 在 前 面 记 作 的 推理 也 并 未 严格 证 明 ， 正 
相关 必 导 致 (3.30 ) 定义 的 6 必 大 于 却 。 故 (3.31 ) 真正 的 含 


义 是 :我 们 把 “ 正 相关 ? 解释 为 6 > 方 一 一 正 相 关 容许 很 多 解 


释 ， 此 是 其 中 之 一 ， 其 合理 性 按 前 述 直 观 分 析 说 得 通 ， 当 对 正楷 
关 作 这 种 解释 时 ,检验 问题 {独立 < 一 > 正 相 关 } 确 实 转 化 为 (3-31) 。 
另外 ，XX， 六 独立 并 不 与 9= 取 等 价 ， 故 再 不 能 写 为 9 一 士 . 
8 的 形式 直接 提供 了 其 一 个 无 偏 估计 ， 
(CX YI) ,KY,) ) =I(X,—X) (YY,)>0), 
以 之 为 核 作 成 口 统计 量 UU,。 若 以 下 , 和 和 下。 分 别 记 玉 和 六 的 分 
布 《五 的 边缘 分 布 ) 。 由 五 连续 知 五 , ,天 , 连续 ， 因 而 有 
R(X ;V1) = Pp Xi mA (YO—Y,)>0) 
=P (XRF,(Y) 十 (1- F(X (1 —F,(y)) 
=1— F(X) —F(y)+2F x )F,Cy). 
因为 下, ,下 , 连续 ， 据 定理 2:1， 记 (站 和 ,CY,) 都 服从 (0,1) 
均匀 分 布 不 (0，1)。 在 瑟 成 立时 ，F,(XX,) 和 FF,( 了 Y,) 独 立 , 利用 
这 些 事 实 ， 不 难 算得 当 原 假设 玉成 立时 有 
o7=Var(h( XY))=1/36, 
又 此 处 六 = 2 。 于 是 据 (3.18) ， 在 五 成 立 之 下 有 
A/ (UU, — 1/2) 一 >N(0, 十 ) 
据 此 得 出 (3.31) 的 一 个 大 样本 检验 为 ， 当 U,> 也 wo/(3M 到》 
时 否定 原 假设 五， 不 然 就 接受 二 
这 个 检验 是 M,G .Kendall 在 1938 年 引进 的 ，Kendall 所 用 
的 指标 不 是 (3-30 ) 定义 的 6， 而 是 * 一 2g 一 1。 这 使 在 袍 ， 了 独 
立时 有 f=0。 对 立 假设 为 rf>0。 如 用 相应 的 UU 统计 量 显 然 


应 为 
UO =2U. 1 《3.32 ) 


s 10I。 


三 此 相应 ， 得 出 的 大 祥 本 检验 为 ; 

{ 当 吕 ,>2Ua/(3MV 页 ) 时 否定 号 ， 不 然 接 受 甩 }。 
《3-32 ) 在 统计 著作 中 有 时 称 为 Kendall 的 = 统计 量 。 当 2 不 大 
让， 可 亿 根 据 7 统计 量 在 原 假 设 下 的 确切 分 布 去 决定 检验 的 临界 
值 ， 关 此 制作 有 表 , 例 如 ,可 参天 DD ,J,Best 的 <Bxtended Tables 
for Kendall’s tau» ( Biometrika 60, 1973, p .429—-30)。, 

如 果 对 涝 淄 设 并 无 方向 性 ， 则 Kendall 检验 不 合用 ,但 U 统 
计 盟 的 理论 仍 可 用 来 处 理 这 个 问题 。 例 如 ， 稀 量 芒 ， 站 是 否 独 了 
的 一 个 显然 合理 的 指标 是 

9=|[ CRG,9) -Fx) Fy TdF Cx,y). 


芒 ， 站 “独立 ”及 “不 独立 ”分 别 等 价 于 “8 一 0” 及 “5>0w。 
县 天 ,8 《“《 愈 不 独立 ?， 则 F(X,y) 与 (Xx)F,(y) 的 差异 愈 是 贷 
向 于 大 ， 因 之 6 这 个 指标 很 合理 。 使 用 它 ， 检 验 问题 { 卫 ， 了 独 
立 < 一 > 发 ,了 不 独立 } 转化 为 
6 一 0< 一 > 站 >>0， 

要 检验 (3.33) ,关键 在 于 找到 三 之 一 无 偏 估计 .。 这 并 不 难 ， 留 给 
读者 作为 练习 。 

以 上 讨论 的 各 例 都 是 在 原 假 设 下 Var(zZ7。) 或 0? 为 “分 布 无 
关 ?” 的 。 在 有 些 场合 这 一 点 不 成 立 。 或 者 在 作 9 的 区 间 估 计时 ， 
需要 得 到 Var(Z7w) 或 cx 的 估计 ， 该 估计 且 须 不 仅 当 原 假 设 成 立 
时 适用 。 这 也 不 难 用 刀 统 计量 法 作 到 。 例 如 ， 按 定义 有 

oi=Var(h (XN))=ECIX)) -0 

=E{h(R, ,RX RX NRK) }— 0 

6: 可 以 用 Ua 去 估计 。 至 于 第 一 项 ， 由 其 表达 式 可 知 ， 以 有 (Xi， 
Kis Kam) = R(X Xs Nm) (NI Xml Nom_1) 为 核 《注意 
这 不 是 对 称 核 ， 即 使 为 对 称 ) 的 上 统计 量 ( 暂 记 为 VV) 是 其 
一 无 偏 信 计 。 由 此 得 出 ci 的 一 个 估计 为 ,一 U0， 这 不 仅 在 原 假 
谈 广 立时 适用 .应 当 注意 ，Us 并 非 8: 的 无 偏 估 计 ， 故 ,一 也 
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不 是 o 的 无 候 沿 计 ， 如 要 得 到 无 偏 估计 ,可 取 J? (x Xim) 一 
页 (1 Cm) Xmtls Num) 为 核 作 成 局 统计 时 W,, 贴 Wi 六 
6: 之 无 偏 佑 计 ， 因而 六 ,一 分, 为 of 之 无 偏 估 计 。 据 U 统 计 丸 的 
理论 ， 在 适当 条 件 下 ， 这 就 是 0? 的 最 小 方差 无 偏 售 计 . 

有 时 ,在原 假 设 下 9 之 值 加 定 为 go，6。 已 知 ， 与 原 假 设 下 
总 体 分 布 无 关 ， 但 ci 并 非 分 布 无 关 。 这 时 ， 可 以 用 六 ,一 06 佑 
划 o?。 这 对 于 假设 检验 的 目的 已 够 了 ， 当 然 不 适用 于 区 间 全 计 
问题 。 

两 样本 UU 统 计量 的 情况 与 此 类 似 ， 细 节 留 给 读者 自己 去 完 
成 。 


习 题 


3-1 (4) 以 多 记 一 切 期 望 存在 有 限 的 一 维 对 称 分 布 族 。 对 
每 个 玉 E 罗 ， 以 8 下) 记 其 对 称 中 心 。 设 匀 ,,…, 式 4 为 从 天 中 
抽出 的 简单 样本 。 证 明 ， 若 如 关 3， 则 8CF) 的 最 小 方差 无 仿 估 
计 不 存在 ， 

(8) 可 用 统计 量 法 来 处 理 6 天) 的 估计 向 题 。 取 核 质数 
h(x ts Ts) —med(xri, tr); RCXL, XX, ) 为 96(F) 的 无 偏 
估计 (第 二 章 习 题 14) .于 是 ,以 有 为 核 的 品 统 计量 似乎 是 8 到 )》 
的 最 小 方差 无 偏 估计 ， 而 这 与 (2) 了 矛盾 。 试 找 出 问题 在 那里 。- 

3-2 证 明 方 差 的 级 是 2. 

3-3 (QQ) 设 下 为 一 维 分 布 函 数 , 则 || FFC) dF (x) > 


《注意 ，F(XY) 右 连续 )。 等 号 当 且 仅 当 互 处 处 连续 ,对 这 个 事实 
作 一 概率 上 的 解释 。 又 如 下 (4) 了 为 左 连续 的 ( 即 困 P(X<x》 
定义 F(x))， 人 情况 如 何 ， 


(8) 设 天 (x,y) 为 二 维 分 布丁 数 ， 处 处 连续 . 则 | _ 研 (x， 
4F(x,y) 的 值 介 于 0 和 二 之 间 ， 实 际 上 ,可取 [0，-] 内 任 
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何 值 ( 这 与 一 纵情 况 大 不 相同 ) 。 对 高 于 二 维 的 情况 此 结论 也 成 
A 

(c) 设 关 ，Y 独立 ， 各 有 分 布 函数 天 (Xx) 和 下 (x 一 0),， 衣 
9>0, 证 明 P(Y>X)> 十 


3-4 以 多 记 一 切 其 3 阶 矩 有 限 的 一 维 分 布 族 。 对 已 E 名 
以 or() 记 下 的 7 阶 原点 矩 。 求 a,( 下 )as( 玉 ) 的 最 小 方差 无 偏 估 
| 

3-5 在 例 3.8 中 ， 代 状 在 那里 引进 的 b( 五 ) ,也 可 以 用 

aF)=) | LF) FO) — FOS+H) dF(S) dP Ct) 

作为 衡 性 与 穆 假设 差距 的 指标 .. 试 求 出 9(F) 的 最 小 方差 无 偏 估 
计 《 假定 样本 太 小 足够 太 》 

3-6 ”证明 在 六 ,YY 独立 且 分 布 连续 时 ， 《3.30 ) 式 的 9 为 
入 又 通过 例子 证 明 ，8 可 取 [0，1J 上 任何 什 ， 


3-7 “可 以 找 一 个 “全 方位 的 ”检验 独立 性 的 指标 ， 
A A 


这 里 (x,》) 是 《省 ,YY ) 的 分 布道 数 , 而 (XY) 和 碧 ,(》) 分 别 是 
五 和 的 ( 边 绢 ) 分布。 泛 函 (下 ) 定 义 在 由 -一切 二 维 分 布 构成 
的 集 上 . 试 找 出 0() 的 最 小 方差 无 偏 估 (假定 样本 大 小 足够 大 )， 
fF 以 它 为 根据 作 独 立 性 的 大 拌 本 检验 . 

3-8 ”证 明 例 3.8 中 的 01 二 5/3888， 并 求 出 方差 

3-9 证 明 例 3.4 中 的 芝 统 计量 其 实 只 与 样本 的 秩 有 关 。 就 
是 说 ， 若 知 道 了 Ys ,Ys 在 合 样 本 有 1 中 
的 秩 天 ,如 测 能 定 下 巡 统 计量 之 值 。 

3-10 ” 举 一 个 铺子 证 明 ， 若 在 两 样本 过 统计 量 Do。 中。 
nn; 和 #4。 只 有 一 个 趋 于 无 穷 ， 则 Zi 不 一 定 有 相合 性 。 

3-11 证 明 (3.20 > 式 。 

e 门生 


第 四 章 ”使 用 样本 的 秩 的 统计 方法 


关于 样本 的 “ 秘 "”， 以 及 使 用 秩 而 构造 的 统计 方法 , 常 称 为 “ 秩 
方法 ”， 在 前 章 中 已 多 次 提起 过 了 , 且 讨 论 过 一 个 以 UU 统计 景 形式 
出 现 的 例 予 -一 Wilcoxon 秩 和 检验 .本 章 的 目的 巧 对 这 种 方法 
给 一 个 比较 系统 的 讨论 . 


34-1 基本 性 质 与 渐 近 分 布 


本 节 的 目的 是 讨论 秩 统计 量 的 一 些 初 步 概率 性 质 ， 及 线性 秩 
统计 量 的 基本 极限 定理 ， 它 们 是 把 秩 用 于 统计 推断 的 方法 利 理论 
基础 ， 

定义 4:1 设 有 为 样本 《不必 独 立 或 辣 分 市) 9 其 值 
两 两 不 同 ， 称 尺 , 一 习 [( XXX 为 大, 在 祥 本 台 ，… ,中 的 秩 ， 
1 一 1 换 句 话说 ， 若 芝 (过 … 之 下 为 有 的 次 序 
统计 量 ， 而 六 ,下 (gy， 则 民 , 为 了 ,之 秩 ， 记 RR 二 (CR,… ,RR,) .RR， 
或 其 一 部 分 分 量 ， 称 为 样本 站 ,,-… ,六 的 秩 统 计量 .更 进一步 ， 
尽 的 任何 已 知 通 数 ， 例 如 引 iogR,， 避 iR, 等 ， 也 称 为 秩 统 计 
量 。 换 言 之 ， 雁 统计 量 就 是 完全 让 样本 的 秩 所 决定 的 统计 量 ， 使 
用 秩 统 计量 的 统计 方法 统称 秩 统计 方法 ， 或 简称 为 秩 方法 ， 

特 刘 重要 的 一 种 类 型 是 线性 秩 统计 量 ， 它 古 形 如 县 cva (RR 
的 统计 量 ， 为 C1,… :cv 为 蕊 知 常数 ， 使 用 线性 秩 统计 量 的 方法 称 
为 线性 悉 方 法 ， 它 构成 目前 常 书 的 秩 方 法 的 主体 。 

前 已 指出 ， 秩 方法 在 非 参 数 统计 中 占有 极其 重要 的 地 位 。 与 
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此 相应， 本 卓 内 容 在 从 教程 中 也 就 占有 重 概 瘤 地 位 ， 其 康 因 可 驳 
举 很 多。 饮 如 , 容 方 法 使 用 灵活 ,易于 在 各 种 检验 问题 中 ， 从 直观 
出 发 构造 冲 检 验 绕 计 景 ( 徐 方 法 主要 用 于 检验 问题 )， 线 性 秦 统 计 : 
下 有 完备 的 大 样本 理论 ， 其 在 苦 假 设 下 往往 为 分 布 无 关 ; 铁 方 法 
的 使 用 ， 相 对 于 其 他 方法 列 言 ， 计 算 上 不 算 很 复杂 ; 秩 方 法 与 常 
用 的 一 些 方法 〈 f 检验 之 类 ) 相 比 ， 其 性 能 不 差 等 等 ， 这 最 后 一 
总 在 本 章 中 将 作 更 具体 芍 解 私 ， 

秘方 法 的 历史 ， 较 近代 的 一 般 认 为 始 自 1904 年 C ,Spearman:; 
闫 十 秩 相 关 欧 论文 .1936 年 ， 若 名 统计 学 家 Hotelling 以 及 Pabsi. 
香农 了 一 个 基于 秩 的 检验 独立 性 的 方法 。 总 观 之 ， 尽 管 让 1900- 
1945 年 期 闻 是 现代 数理 统计 学 从 奠基 到 成 熟 的 时 代 ， 出 现 丁 
Fisher、Pearson、Neyman 等 大 师 ， 但 耿 方 法 以 至 骆 个 非 参 数 
统计 进展 不 大 ，1945 年 下 .Wilcoxon 发 灾 了 其 重 要 的 秩 和 俭 验 。 
它 不 仪 在 应 用 上 痛 较 大 意义 、， 且 沟 感 往 后 秩 方 法 发 展 的 动力 和 志 . 
发 忆 。 因 此 这 项 土 作 在 秩 方 法 发 展 史 上 订 算 是 一 个 里 程 碑 ，。 

秩 方法 的 发 展 依赖 于 其 侨 限 理论 .第 一 个 比较 车 这 的 结果 (加 
分 布 情况 ) 属 于 Wald 和 Wolfowitz(1944 年 )， 济 1949 年 Noether 
作 了 重要 改进 ，1858 年 Chernoff 和 Savage 首先 对 两 样本 情况 . 
作出 一 般 结 果 , 而 六 十 年 代 Hajek 的 重要 工作 又 作 了 天 的 推 进 ， 
经 过 这 些 大 家 的 工作 ， 秩 统计 量 的 极限 理论 (主要 是 线性 情况 》， 
达到 相当 党 善 的 地 步 ， 足以 应 付 统计 的 需要 ,六 ,七 十 年 代 以 米 以 
至 如 今 ， 仍 有 一 些 学 者 从 事 这 方面 的 研究 工作 ， 结 果 往 精深 方向 . 
发 展 。 但 忽 祝 了 其 统计 意义 。 

在 这 样 的 背景 下 ， 自 五 十 年 代 初 期 以 来 ， 秩 统计 方法 经 历 过 : 
一 个 较 快 的 发 展 时 期 。 发 展 了 一 大 批 用 于 一 、 二 样本 及 多 样本 问 
题 ， 用 于 方 莽 分 析 、 回 归 分 析 、 独 立 性 和 随机 性 检验 等 等 的 秩 方 
法 ， 也 出 现 了 若 于 专著 。 

在 本 节 一 ` 二 .三 段 中 ， 我 们 总 假定 样 林 区 …:; 才 。 为 独立 同 
分 布 ， 其 公共 分 布 丈 处处 连续 。 后 面 这 个 条 件 保 证 了 ， 以 概率 1 ,， 
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人 下 互 不 相同 ， 因而 秩 的 意义 确定 ， 且 Ri,…,K, 取 1 到 
之 伪 1 次 且 仅 1 次 ,更 进一步 有 以 下 的 基本 事实 ， 

定理 4.1 以 (人 ?Ia ) 记 (1，…2) 的 任 一 置换 ， 这 样 的 置 
换 共 有 2 个 ， 则 


P{R, eR) = C7) =1 /1. s 


证 明 ”由 入 ，…, 芝 ,为 设 ,， 从 对 称 的 角度 立即 看 出 ， 形 式 
地 可 如 下 论证 ， 找 束 ,使 76, 一 户 ， 电 二 1，…H， 则 (21,…i;) 为 
《1 …22) 之 一 置换 ， 放 ( 天 和 汉人) 与 人 在 1 ,有 » 》 同 分 布 ， 以 
Ry 记 | 在 XX, 中 的 牧 ， 则 (CR,* ' ,Rr ) 应 与 CR,, 
…, 太 , ) 同 分 布 。 故 


P (CRise, RW) (ris 0) ) =P((Ri’,-, Rs) = (C1) ) 


=P (CR RD =, ,1) ) 


县 后 一 个 概率 与 (”，…，*zn) 无关, 即 所 有 rt! 个 这 样 的 概率 都 取 同 
一 个 仁 。 这 个 值 必 为 12 .证 毕 。 
这 个 定理 指出 ， 在 id ,与 分 布 连续 之 下 ， 秩 的 分 布 与 总 体 分 
。 这 基 它 在 非 参 数 统计 中 有 用 的 根本 原因 ， 从 这 个 基本 事 
出 发 ， 原 则 上 就 不 难得 到 任何 秩 统 计量 的 分 布 ， 例 如 
PlR=N)=1/m f=1, ,t=1l, (C4:1) 


1 
PR,=H, R=9) = RoI) 2 一 1 4 UA 


1 一 1 Ea (Cd:2 > 
一 般 ， 对 任 一 线性 秩 统计 量 志 一 卫 cea( 絮 ) ,有 P(L=4 二 dspnt， 
其 中 4d。 表示 好 ! 个 数 袜 cte(za) CU 的 二 
切 置换 ) 中 等 于 4 的 个 数 .可 是 ， 当 n 较 大 时 ， 这 种 分 布 在 形式 
上 很 繁 又 无 规则 ， 并 不 便于 应 用 ,因而 考虑 用 其 极限 分 布 取代 之 . 
» 107r。 


利 肛 541》 和 (4.2)， 不 难得 到 
ee (C4:3) 


Var(L)=-— (C4:4) 


a 区 二 i Ss 
《4-3) 不 难 证 风 ， 留 给 读者 自 证 。 为 证 《4.4， 只 须 注意 
Var (acR) — 3 )Ca(i) —a)s/m 1 =1,- sh 


及 
Cov (ceCR :acCRD )= je 
-nl a a), ¢ i» 
用 公式 
Var (L) =SciVar'a(R) )+ BeicCov{ atR,) ,a RD)) 
稍 加 整理 吨 得 ， 


例 4:1 考察 例 3.4 中 提 到 过 的 Wilcoxon 两 样本 秩 和 统计 
量 在 让 ==G 的 情形 ， 且 五 处 处 连续 。 即 ; 1 Xn Y,, "yy 
Ys 为 独立 同 分 布 ， 以 Rri 记 o Y, 在 合 样 本 .和 “多 了 中 三 


ng 

特 ， L 一 之 Ar 这 相当 于 

1) =i f=1, ,RtH C= 0 当 E EN, C=1 
#1 十 1 寺 7 < 委 和 十 入 { 4:5»》 
记 信 一 1 十 N;, 易 算出 

by \2 N 

> (aci) -a) =NCN?—D/12, Bes ~—5): n/N, 
二 是 得 到 

FE(D) 一 和 人 二 ， Var(D= e+. 《4.6 


这 与 (3+16 ) 一 致 (注意 此 处 的 工 是 该 处 的 Using 的 91i 倍 再 加 
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上 n(n, 十 1)/2)。 
下 面 两 个 定理 涉及 线性 秩 统 评 量 分 布 的 对 称 性 。 


定理 4.2 对 线性 秋 统 计量 工 一 立 cic(RD， 藻 以 下 两 条 件 ， 


至 少 成 并 其 一 ， 
a tant1i—i)=a(1)+a(n), i =1,." ,Hy 《4.7》 
Ci 十 Cnrli 一 CI 十 Co t 一 ,Ns (4.8)-. 


划 工 的 分 布 关 于 其 期 望 255 对 称 。 
证 明 ” 据 定理 4.1 有 


er Ey ,A a he (C4:9): 


营 ( 4°7 ) 成 立 ， 凤 @C 民 ,) 一 二 一 也 一 CH 十 1 一 如 ,) . 收 出 《 4:9)， 

L nai— Sc, (a( RO) —a) =Bc.(a-atnt1—R) ) 

= (a~a(R) )=nai—L, 

即 亏 一 5255 与 一 ( 工 一 haz) 同 分 布 ， 因 而 也 一 285 的 分 布 关于 0 对 
称 ， 这 证 明了 所 要 网 结 果 。 当 C48 ) 成 立时 证 明 类 似 ， 留 给 读 . 
者 ， 

着 分 布 对 称 ， 则 在 造 才 时 可 以 只 考虑 一 端 。 故 本 冠 理 在 应 出 
上 有 意义 。 下 而 是 一 个 更 广 一 些 的 结 采 ， 

定理 4:3 以 RiLCOR,…, R,)., .多 记 【1， 机 3》 的 万 有 
置换 之 集 ( 多 包含 1 个 元 素 )。 设 为 由 风 到 FE 上 的 一 个 一 一 - 
对 应 变换 。 设 六 为 定义 在 史上 的 实 函 数 ， 满 足 条 件 


Ver)+V(fCr)) 一 常数 c ， 对 -- 切 76E .多 《4.10 )， 


则 统计 量 VVCR) 的 分 布 关于 c/2 对 砍 。 此 断言 之 道 亦 真 。 
证 明 因 上 为 册 多 到 有 罗 上 的 一 一 对 应 变换 ,由 定理 4:1 知 ，， 


(RD) 二 玉 . 故 若 《4.10 ) 成 立 ， 则 有 


es T09。 


V CR) -ce/2=e/2—V fCR) Se/ VR) 
:因而 得 出 VC(R) 一 c/2 关于 0 对 称 。 反 过 来 ， 攻 六 (RR) 之 分 布 关 
于 c/2 对 称 ， 任 取 G >c/2， 使 PCV (R})=a)>>0,itLad =/1 一 c/2。 
则 外 (有 R) 的 分 布 关 于 c/2 对 称 可 知 
P{V(R) =c/2~d )= 已 (CR) 一 c/2+dj>0。 
由 此 、 再 注意 到 六 (及 以 综 概 率 取 . 多 上 每 一 元 为 值 ， 知 两 集合 
rE VD)=c/2+Q} 和 :TE V(r) 二 cf/2 一 d} 所 含 元 
素 个 数 相 同 ， 故 在 这 两 集 之 闻 可 建立 一 一 对 应 . 因 对 不 同 的 @& 0 
集合 {7:7z 和 多 (7) 二 Q} 互 不 相交 ,对 一 切 &4 >0 建立 上 述 对 应 ， 
从 而 在 整个 多 上 建立 了 一 一 对 应 下。 这 个 对 应 显然 满足 ( 4'10)。 
定理 证 毕 。 
不 难 验证 ， 和 定理 4"2 是 本 定理 的 特例 ， 细 节 留 给 读者 。 
二 、 同 分 布下 钱 性 黎 统 计量 的 渐 近 正 态 性 
本 段 仍然 假设 样本 下 :，…， 环 。 是 独立 同 分 布 ， 而 且 其 公共 
分 布 记 连续， 大 二 《了 R|,…, 民 ,) 为 秩 统 计量 。 考虑 线性 秩 统 计量 
二 二 咏 cwen(R)。 这 里 因为 要 考虑 样本 大 小 >oo 时 的 情况 ， 我 
们 把 前 下 用 过 的 记号 c,;2( 有 RR,) 和 工 都 添上 足 标 ,在 这 个 表达 式 
中 ， da《*) 为 一 个 定义 在 集合 仁 ,2,…,n} 上 的 实 症 数 ， 有 时 称 它 
为 计 分 函数 ,道理 是 这 样 的 ，Qn( 环 ,) 傅 大， 这 一 项 在 工 , 中 起 的 作 
漂 也 愈 大 ， 形 象 地 可 以 说 威 是 妨 “得 了 Qn 有 R) 分 ? ,Cn1 9:… Cn 为 
冰 数 ， 它 们 有 时 被 称 为 “回归 系数 >。 这 个 名 词 在 很 大 程度 上 是 借 
用 性 质 的 。 
记 上 六 一 五 ( 志 )，an 一 Var(Z) 。 问 题 是 要 探究 ， 当 fc,} 及 函 
激 必 满足 何 种 条 件 时 ， 标 淮 化 后 的 变量 ( 工 , 一 i /os 依 分 布 收 
倒 寺 访 (09,1)。 这 个 问题 曾 费 了 不 少 知名 的 统计 学 家 的 心 血 ， 而 
以 Hajek 1961 年 的 工作 最 完整 (网 他 发 表 在 Ann,Math,Statist， 
土 的 文章 ，1961+ 年 pb.506) .他 的 记 法 很 富 技巧 性 且 赤 本 上 只 用 了 
.110 。 


初 竺 工具。 因为 太 繁 ， 这 归 只 好 从 咯 。 而 且 ， 灌 册 于 统计 推断 而 
言 ， 最 一 般 形式 的 Hajek 定 埋 并 不 方便 ， 倒是 由 之 扒 出 的 两 个 - 
顷 果 ,适用 于 许多 问题 ,故我 们 这 时 只 限于 不 加 证 明 地 引述 这 两 个 - 
结果 .作为 准备 ， 要 引进 几 个 概念 。 

设 对 每 个 六 然 数 2 给 定 了 天 个 实数 cyCons 记 Pa 一 (co 十 
Cn) /NH 

定义 4.2 如果 当 如->2c 时 ， 有 

max(cn -5%)*/B (cn —5%)* —>0, (4.11 )》: 
则 称 序 列 {(cwy,… Cnn) :7 二 1,2,…} 满 足 条 件 NN( 条 件 入 之 得 名 ， 
是 因为 此 条 件 是 Noether 在 Wald-Wolfowitz 1944 年 一 个 类 似 ` 
条 件 的 蕉 础 上 ， 于 1949 年 引进 的 )。, 有 时 ， 我 们 只 是 对 自然 数 的 ~-- 
个子 序列 Ta 中 的 天 给 定 了 fen can 。 这 时 定义 (4'2}》， 
仍 有 效 ， 但 把 4->s 改 为 入 中 的 二 co。 

组 察 (4.11 ?看 出 ， 这 个 条 件 无 非 是 说 ， 在 当 2 ->=o 时 ， 构 - 
成 平方 和 六 (cu 一 5 的 每 一 项 所 起 的 作用 ， 一 致 地 趋 向 于 0. 
这 与 在 由 心 极限 定 理 中 起 关键 作用 的 所 谓 “ 一 致 渐 近 可 名 略 ” 的 - 
条 件 是 一 种 性 质 。 由 此 也 就 可 以 理解 ， 浪 什么 这 样 的 条 件 六 会 出 
现款 了 的 渐 近 正 态 性 的 讨论 中 。 

其 次 引进 一 个 函数 类 SS， 它 出 一 切 定 义 于 《0,1) 区 间 上 上 敬 ， 
满足 下 述 条 件 的 函数 多 构 威 :一 8--9,，91.9. 邦 是 定义 在 
《0,1》 的 ， 非 隆 而 平方 可 积 的 沙 数 ， 且 9,，9, 在 (0,1) 区 闻 兴 - 
都 不 所 等 于 常数 。 | 

定理 4.49 对 线性 秩 统计 量 忆 ,一 立 crsan( 尺 )， 若 下 述 两 条 - 


QD 参 轩 $5:2 一 、 及 第 五 章 附 区 ， 其 中 将 给 出 本 定理 年 要 特例 的 证 时 
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《1》 fc Con) :3 一 1 2 满足 条 件 N， 
《2) 存在 常数 风头 4 及 两 数 ESS， 使 


一 7 一: ee . 
Qnt) = 人 2 工 ，… ,9 《4.12 7 
则 当 n 一 时， 有 
(了 一 yc 一 一 0,1)。 (Cd4*13 》 


:此 处 疡 = 五 (ZJ .as 一 Var(Z)， 已 在 前 面 提 到 过 ， 

说 来 有 趣 ， 本 定理 《 以 至 Hajek 的 一 般 定理 》 的 证 法 也 是 基 
于 在 前 儿童 中 多 次 提 到 的 那个 原则 ， 即 要 设法 把 L, 表 为 一 个 
独立 随机 变量 和 加 上 一 个 余 项 ， 后 者 的 影响 当 8-> se 时 趋 于 0. 然 
而 ， 这 原则 说 起 来 简单 ， 实 际 做 起 来 趣 大 有 文章 ， 本 定理 的 证 明 
基 很 好 的 例子 。 

例 4.2 再 考察 Wilcoxon 秩 和 统计 量 ZL。 严格 说 来 ， 
“Wilcoxon 统 计 晨 依 束 于 两 个 分 样本 大 小 ,hs,， 应 记 为 Lnjns 才 确 
切 ， 此 处 我 们 以 其 合 样本 天 小 2 一 22: 十 9 为 足 标 ， 只 要 注意 到 这 
一 点 、 当 不 致 引 起 混 淆 ， 此 处 有 

Cenc) 00 1 个 907 个 1 (4:14) 

不 难 算出 (Cu — Er)’ HN /nA, 而 max(cn en) <1。 因 
于 

Hm>o0, Ns~> oo, 《4d4*15 ) 
因此 ， 在 两 个 分 样本 大 小 都 无 限 增加 时 ,条件 六 满足 ,在 本 例 中 ， 
不 一 定 网 过 全 部 自然 数 ， 这 在 定义 4'2 后 而 已 有 所 交代 ， 

其 次 ， 知 令 2 一 8 《0 之 Ut 之 1)， 而 所 = 十 1， 则 @& (1) 一 


二 a y+ ep 7 i FE 
2 fp. 全 ， 7 一 1 12] 可 避 表 为 2w 一 x， 其 中 28 和 wt 


部 是 在 《0,1 ) 非 降 非常 数 的 平方 可 积 函 数 ， 于 是 9ESS、 再 用 
“112. 


例 4.1 中 算得 的 ECL,) 和 Var(L,) 3 得 知 当 Ni—>, Ma 一 2 了 时 * 
有 


2 3 (一 ACE DSNGO,1). C4.16) 


这 个 结果 就 可 用 于 大 样本 检验 ， 这 在 例 3.7 中 已 讨论 过 了 . 在 该 
例 中 尝 用 忌 统 计量 的 理论 求 得 局 的 极限 分 布 ， 但 多 数 情况 下 秩 
统计 量 并 不 一 定 能 表 为 上 U 统 计量， 故此 例 只 能 算是 一 个 巧合 ， 


本 定理 中 的 计 分 沙 数 形式 (Qs ( i ) 一 hp (一 二 ))， 是 最 重 


要 、 应 用 最 广 的 一 种 形式 。 除 此 之 外 ， 还 有 一 类 计 分 函数 也 很 重 
要 ， 即 在 下 一 定理 中 所 涉及 的 内 容 。 

设 有 一 个 一 维 分 布 D， 而 Vi 志 … 志 Vs 是 从 此 分 布 中 抽出 
的 ， 大 小 为 的 次 序 样本 。 令 

a 2 =EC(V), i =1,. ,1, ( 4.17) 
以 之 作为 计 分 画 数 (此 处 自然 要 求 分 布 吕 的 期 望 存在 有 限 )。 这 种 
计 分 函数 最 早 且 最 著名 的 一 个 ， 是 Fisher 和 Yates 在 1938 年 提 
出 的 ， 他 们 取 刀 为 标准 正 楚 分 布 N(0,1)， 并 对 4 志 50 给 出 了 在 
瑟 分 布下 (417 ?右边 之 值 ( 抑 及 .A Fisher and F, Yates, 
Statistical Tables for Biological, Agricultural and Medical 
Research，Oliver and Boyd.，1938)， 易 见 Wilcoxon 统计 量 的 : 
计 分 区 数 也 有 这 个 形式 ， 其 中 也 为 (0,1 ) 均匀 分 布 ( 差 一 个 无 关 
紧要 的 常数 倍数 ) 。 

如 果 分 布 水 数 妃 在 ( -=e，=e ) 处 处 严格 增加 ， 则 万 的 反 函 
数 刀 :存在 ， 而 (4'17 ) 可 等 成 另外 的 形式 ， 

an()= EV,)=E(D-1(U,)), (4.18) 
此 处 Un 所 … 志 Unn 为 抽 自 (0,1) 均 匀 分 布 的 次 序 样本 (参看 定理 
2"1) ,作为 《4:17 ) 的 一 个 稍稍 的 推广 ,我 们 把 (4.18 ) 中 的 D-: 
政 为 # ， 而 不 要 求 8 是 某 一 分 布 函数 的 反 函 数 。 
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定理 4:5 区 Cwta(2e,) ,其 中 


《cmsCnn) ;KR 二 1.2,…} 满 足 条 件 N， 又 Qaw( 让 = 区 
[9(00))，1 所 ;<n， 而 PESS. 则 当 # 过 时 ，(4。13 ) 成 立 。 


例 4.3 仍 考 察 两 样本 问题 ,以 尺 ， 3” :有 和 Yi Ci Ya 分 
别 记 从 一 维 分 布 五 和 C 中 抽出 的 简单 样本 。 设 下 一 CG ， 尺 处 处 连 
续 ， 以 天 。 + 记 卫 ; 在 合 样本 中 的 秩 ， i=l 9。 取 计 分 函数 为 
《4.17)， 湛 中 分 布 D 为 NC(0,1)， 叉 (cm,…sCmm) 按 《4.14) 定 


义 。 由 此 得 出 的 线 仁 秋 统计 量 就 是 一 如 EE( 97so0rs 7， 


当 为 N(0,1) 的 分 布 。 这 样 定义 的 L,， 称 汶 Fisher-Yates 统计 
量 。 

当 让 一 wo， 2.2 时 ， 本 4:2 已 证 明 ， {Cni, a Can) 二 
1，2，…} 满足 条 件 N. 按 定理 4.5» 为 证 乙 。 渐 近 正 态 ， 偿 必须 
证 蝇 

| (er co ) du<o. (4.19 》 

0 。 
为 证 此 ， 以 史记 AN (0:1 ) 的 密度 ， 经 作 变换 w= 十 (*%)， 知 上 式 
等 价 于 | ”x'9(x)dx<oo。 但 此 积分 就 是 NC0,1 ) 的 方差 ， 即 1 


歼 为 有 限 , 因 而 证 明了 《4.19》,.( 此 证 明 可 推广 为 车 4x《') 上 由 
C417 ) 定义 ， 分 布 立 数 了 处 妊 严 增 ，。 且 刀 D 和 的 方差 有 限 , 则 ay (2) 
满足 定理 4.5 的 条 件 。) 

在 讨论 多 样本 问题 及 其 他 问题 中 ， 须 用 到 几 个 线性 秩 统计 量 
药 联 合 分 布 收 伍 于 多 维 正 态 。 关 于 这 个 问题 ， 我 们 只 不 加 证 明 地 
-引述 下 列 定 理 。 

定 吏 4:6 仍 在 样本 独立 同 分 布 及 公共 分 布 处 处 连续 的 假定 
二， 考察 个 线性 秩 统 计量 ， 

* 1l4. 


Lu =— Yc a RO), k=1,,m 
设 以 下 条 件 成 立 : 
(1》 对 每 个 此 ，{(c co 0248 一 12eo} 满足 条 件 N 
(2) 计 分 函数 4a,《*) 满 足 定理 4.4 或 者 定理 45 的 条 件 。 
(3) 记 5 一 六 c/n， 一 1，…， 吉 ， 则 对 任何 上 天 并 
中 安 11，， 委 1， 极限 
7 


No nf (EY [3 C4) 
和 mm 吧 一 
VY Se a) ee 一下) 


1 


和 存在， 县 方 阵 4 二 CDs1 二 194 为 满 多 (注意 Max 一 1)。 

记 lnr= ELug) ,Ong— Var( Lrg) , 则 当 姑 一 co 时 有 

人 so Lamm LENO.  《〈420)， 

Cnr Cnm 

本 定理 的 家 用 实例 将 在 84.4 中 讨论 。 

定理 4-4 和 4.5 指明 ,在 一 定 的 条 件 下 ， 线 性 秩 统计 是 L, 经 
标 谁 化 后 ，CL, 一 届 ) /0 的 分 布 阻 数 收 仑 于 标准 正 态 分 布 毕 数 , 对 
问 定 的 n 这 二 者 的 差距 如 何 ? 因为 当 大 较 小 时 ,《 4 一 1a) /5n 的 分 
布 ， 易 根据 定理 4.1 算出 ,可 以 拿 计算 结果 与 标准 正 态 分 布 比较 > 
而 对 上 述 差 距 得 到 一 些 概 念 。 如 果 当 及 较 小 时 这 差距 尚 不 大 ， 史 
有 理由 相信 ， 当 更 大 时 ， 通 近 的 程度 当 更 好 ,Lehmann 和 曾 在 其 
著作 《Nonhparamettric Statistical Methods Based On Ranksy 中 
引述 了 Wilcoxon 两 样本 玲 利 统计 是 的 结果 ， 按 定理 4.4， 有 


PCZL <c)m=g( 一 2 二 LDL 
a (3 nn 1)/12 


一 N01 十 8， 作为 NC0,1 ) 的 分 布 。 因 Ls 只 取 整 数值 ， 一 般 作 连 : 
续 性 修正 ， 


(4.21) 


4 TI15。 


了 <cysG6f Et /2+12. (4.22) 
4 0 Ce ) 


对 几 组 Cr， ) 及 5 之 值 ， 下 表 给 出 已 ( 工 .<c》 的 确 值 ， 以 及 
(4.21》 和 (4.22 7) 的 右边 的 个， 


红 1 一 五 y 1 一 3 
C 6 7 8 9 i0 
确信 012 024 048 083 131 
(Cd.21) 010 019 035 051 098 
£4.22) 014 ,026 O47 O78 123 


从 这 几 个 表 来 看 ， 用 正 守 分 布 副 近 Wolcoxon 统计 量 的 分 
布 ， 即 使 对 比较 小 的 二 ,25， 获 果 还 是 比较 好 ， 特 别 是 《4 22)， 
其 误差 从 实用 的 观点 看 已 无 其 重要 性 。 相信 对 常用 的 一 些 线性 秩 
统计 是 ， 情 况 应 基本 相当 ， 

三 、 样 本 独立 同 分 布 但 有 结存 在 时 

如 果 样 本 和 和 …:, 和 ,中 有 相同 的 , 则 它们 构成 一 个 “ 绪 ?(tie7， 
人 殖 中 样本 个 数 称 为 该 闭 的 长 。 例 如， 设 有 样本 
0.45, 0.20,0,.80,0.20,0.34,0.43, 0,15, 0.56, 0.20 C4.23) 
出 其 中 有 两 个 结 ， 下 2 有 9 都 为 0.20， 此 结 之 长 为 3 六 和 和 
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文 。 都 为 0.45。 此 结 之 长 为 2. 为 方便 计 ， 有 出 也 把 不 重复 的 样 
本 称 为 长 为 1 的 结 , 这 样 ， 此 样本 中 有 4 个 长 为 1 的 结 ， 即 六,， 
飞 6 rz 和 人 sa。 

当 结 ( 长 大 于 1 者 ) 出 现时 ， 样 本 的 秩 如 何 定 ， 需 要 另 加 骨 
确 。 且 ~…- 般 说 来 ， 结 的 存在 使 秩 方法 的 理论 和 实际 使 用 都 复杂 化 
了 于。 由 于 这 个 原 内 ， 人 们 往往 假冒 总 体 分 布 连续 ， 以 回避 这 个 问 
题 。 但 有 时 间 题 的 性质 使 连续 性 假定 不 合适 ， 另 外 ， 即 使 总 体 分 
布 连 续 ， 也 可 以 由 于 测 基 单位 较 粗 而 出 现 结 ， 饥 如， 两 个 样本 较 
精细 之 信 本 应 为 3.1413 和 3.1426 ,但 如 只 记 到 小 数 点 后 两 位 , 册 
都 为 3.14， 而 形成 结 。 故 在 研究 秩 方 法 时 ， 对 结 的 问题 作出 适当 

常见 的 处 理 结 的 做 法 有 以 下 两 种 : 

1。 随 机 化 法 。 就 是 把 同一 个 结 内 的 样本 , 按 该 结 所 占 位 置 ， 
用 机 会 均等 的 方法 配 纵 其 秩 , 例 如 ， 样 本 ( 423 ) 中 的 ,, 义 ,和 
六 构成 一 结 ， 它 们 占据 了 2 、3 、4 这 三 个 位 次 ( 秩 )。 按 “ 抽 
签 ” 的 方法 ,把 这 三 个 秩 随机 地 分 配给 到 :各 及 开 s。 同 样 , 式 : 和 
汪 e 这 个 结 占据 位 次 6 和 7 ， 可 投 撕 一 均匀 钢板 ， 如 出 现 正 ( 反 ) 
面 ， 风 把 秩 7《 6 ) 赋 予 ,余下 那 一 个 给 六。。 

采用 这 种 方法 定 秩 , 最 大 的 优点 在 于 定理 4*1 的 结论 仍 成 立 ， 

定理 4-1 设 兰 ,,…, 太 ,为 从 一 维 分 布 中 抽出 的 简单 样本 。 
不 论 天 是 否 连 续 , 若 按 工 述 方法 决定 关 , 之 秩 为 R,，# 二 1,… ,nn， 
则 秩 统 计生 乓 一 ( 姑 的 分 布 仍 如 定理 4-1 所 示 。 

证 以 中 ,…,U。 记 (0,1》 均 勾 分 布 的 简单 样本 ， 且 设 X,， 
ys Ce 全 体 独 立 。 记 Y=(X， 7 ， 1 一 工 2 对 
了 了 1,… 排序 如 下 : 任 取 i 天 7 了。 车 半 之 蔗 /， 则 了 了 ;在 了 ;之 
前 。 若 Ai 一 上 但 CI<Uy, 则 了 在 yy 之 前 。 由 于 以 概率 1， 
Us hn 互 不 相同 ,上 述 规则 唯一 地 决定 了 Yi Ys, 的 排序 ， 
因而 唯一 决定 了 YY, 之 秩 ， 它们 显然 也 就 是 及 1 按 
上 述 随机 化 方法 决定 的 秩 玉 ,,… ,RR,, 但 就 站 ,，,…,Y 而 言 ， 定 理 
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4'1 的 推理 完全 适用 。 因 而 证 明了 所 要 的 结果 ， 

读者 应 注意 的 是 ， 当 我 们 说 了 1,… ,Ys 之 秩 就 是 六 ,，… ,六 
摇 随 机 化 方法 决定 的 秩 时 ， 所 指 的 是 ,通过 (0,1 ) 均 匀 变 量 U,， 
…,U， 以 在 诸 下 ,相同 时 施行 随机 化 ， 确 符合 “ 结 中 诸 变 景 的 秩 
按 机 会 均等 ”的 方式 给 秩 的 要 求 。 你 可 以 采用 别 的 机 制 实现 随机 
化 ， 但 所 得 秩 统 计量 的 分 布 都 一 样 

有 了 这 个 结果 ， 前 面 一 、 二 画 段 在 总 体 分 布 连续 的 条 件 下 短 : 
出 的 一 切 结果 ， 在 此 人 金保 择 成 立 。 例 如， 在 原 假设 〈 两 总 体 的 分 
布 碧 ，G 相 则 》 下， 两 样 末 Wilcoxon 秩 和 统计 量 的 分 布 及 其 极 
限定 理 ， 与 以 前 求 得 者 相同 ， 因 而 检验 的 淘 界 值 也 一 - 拌 ， 

这 个 方法 虽然 从 理论 的 角度 说 颇 简 单 ,但 有 一 个 恨 本 的 缺 娶 ，、 
就 是 引进 了 一 个 姓 来 的 ， 人 为 的 随机 化 手续 。 这 就 使 得 年 、 乙 两 
人 在 同一 组 样本 之 下 ， 由 于 这 随机 化 结果 之 不 同 、 人 而 得 出 不 同 的 
秩 统 计量 值 。 举 例 而 言 ， 设 在 样本 《4.21) 中 ， 闵 ,不 ,Xs 玉 窑 
第 二 总 体 ( 照 以 前 记 法 是 四 样本 》， 其 余 米 和 月 第 一 总 体 ， 而 我 们 打 
竺 用 Wilcoxon 秩 和 检验 去 检验 “两 总 体 网 分 布 ?之 假设 再 .以 研 、 
证 和 样本 之 秩 箱 。 设 报 据 答 验 水 平 而 确定 的 恪 界 值 挟 ， 你 产 24 时 
否定 及 ， 不 然 就 接受 且 , 现 Y 样本 中 有 两 个 之 牧 分 别 为 8 和 9 , 兄 
一 个 属于 一 长 为 2 的 结 。 央 此 共 秩 或 为 6 或 为 7 ， 要 看 随机 化 的 
结果 如 何 、 车 甲 施行 湖 机 化 的 结果 给 也 这 个 站 样 杰 以 秩 7 ， 帆 . 
人 Vy 二 24 而 甲 否 定 瑟 。 同 时 ， 乙 施行 随 柑 化 给 以 秩 6， 则 多 =23， 
而 乙 接 受 了 及 。 对 应 用 者 来 说 这 很 难于 接受 ,下 面 的 “ 诗 均 法 
就 没有 这 个 缺点 。 

2。 平 均 法 。 此 法 对 结 中 每 一 样本 赋予 均等 之 秩 ， 即 结 中 各 
位 置 秩 的 平 饼 。 拿 样本 《4.23 ) 而 音 ， 民 2 有 人 这 全 结 占 据 位 
次 2，3，4,， 上 其 秩 平 多 沟 ( 2 十 3 十 4)/3=3。 天 不 ,， 尺 ,和 
Rs 部 定 为 3 。 回 群 ， 有 下,， 么 s。 这 个 结 占 所 位 次 6 和 7 ， 上 其 下 钨 为 
《6 十 7)/2==6.5. 故 民 | 和 R, 痢 定 为 6.5. 简 下 的 RR;, Rs 
Es 分 别 为 9。， 5， 工 各 8 .这 个 做 法 达到 了 样本 之 秩 叭 -~… 决 定 的 ; 
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扫 的 ， 取 平均 在 直观 上 次 也 是 自然 的 至 于 其 缺点 ， 则 在 于 这 样 
天 定 的 秩 统计 其 ， 其 分 布 已 不 运 合 定 理 4-1( 这 是 显然 的 ， 因 现在 
纵 可 以 取 非 整数 ) .实际 上 ， 在 平均 法 之 下 ， 即 使 对 簿 单 祥 本 而 
言 ， 如 总 体 分 矶 可 以 不 连续 ， 由 秩 统计 量 之 分 布 将 依 束 于 总 体 分 
布 ， 即 并 非 分 布 詹 关 。 这样， 例如 对 滁 样 本 而 言 ， 已 不 可 能 根据 
检验 水 平 去 决定 秩 检 验 统 计量 的 临界 值 ， 换 句 话 说， 在 平均 法 之 
下 ， 如 允许 总 体 分 布 不 连续 ， 则 秩 检验 已 不 能 认为 是 在 县 型 意义 
下 的 非 参 数 方法 。 但是， 二 、 中 的 极 女 定理 经 过 适当 的 修 小 后 仍 
成 立 ， 这 提供 了 大 样本 答 验 的 可 能 性 ， 

为 叙述 这 种 极限 定理 ， 引 进 记 谓 “ 结 统计 量 ” 是 有 益 的 ， 简 
计 之 、 结 统计 基 记 载 了 样本 中 各 结 之 长 (包括 长 为 1 之 结 ), 使 样 
-本 (423 ) 为 例 ， 按 由 小 到 大 排列 为 

0.15, 0.20, 0.20, 0.20, 0.34, 0.45, 0.45, 0.56,0.80, 
其 有 6 个 结 , 其 长 分 别 为 = 1 Ts 二 3， Ta3 二 1 二 2，T- 一 
1 ，7T6:= 1 , 故 在 此 例 ， 结 统计 量 为 T==(T,…,T0) 二 (1，3，1 
2，1，1]1). 一 般 地 ， 洁 样本 让 1,… ,分 ,的 排列 是 ， 

入， 二 = 


11 Lp 
Rr =X rts = rr 
Ktriti = 


型 结 统 计量 为 r= 《Z15 »Tg) .注意 qa 与 样本 有 关 ， 因而 为 随机 的 . 
又 结 统计 量 z 并 未 指明 那些 样本 在 那个 结 内 。 如 对 《4.21) 而 
言 ， 若 有 人 《〈 他 知道 这 样本 的 具体 值 ) 告诉 你 这 样本 的 结 统计 
为 (1，3，1，2，1，1)， 你 无 法 据 此 知道 在 长 为 3 的 结 中 
包含 了 那 三 个 样本 。 

其 次 ， 要 根据 平均 法 的 精神 ， 对 线性 秩 统计 量 的 定义 


Sea RW) 加 以 修改 方法 如 十 ， 设 有 样本 莹 ,,… ,XX，， 按 轩 小 


到 大 排列 为 (4'24)。 按 平 芍 法 ， 对 样本 《4.24) 而 言 ， 秩 只 取 
。 119 。 


4 个 值 : 
d=(1+2+%+r)/5= (1 +r)/2, 
Qs 二 《71 十 1 十 十 TT 十 5 ) fT, 一 T1 十 (1 十 T,) /2， (4*25) 
@ 一 (Ti 二 … 十 To 十 1… 十 引 十 … 十 To)/T。 
二 二 十 To 十 (1-rT)/2， 
措 函 数 a(') 在 每 个 结 上 到 的 值 吉 以 平均 ， 也 得 9 个 值 ， 
b= (a + +alr) /rn 
\ ’ (4.26 ) 
= {a(t tt + tnt ) /ra, 
定义 新 函数 &(，): 
Eldi)=t,, £ =1,' ,0, 人 


而 将 线性 获 统 计量 的 原 定 义 二 = 阁 cia( 尼 修改 为 ， 
FDR,), 《4*28 ) 


此 处 民 为 (在 样本 基 ,,…, 基 ,中 的 ) 按 平均 法 决定 的 秩 ， 
《4:28) 的 定义 过 程 似 颜 偶 杂 :其 实质 很 简单 ， 把 珠 求 每 个 CE 六 
按 绪 上 ci 的 平均 全 取代 之 。 

例 4:4 ” 设 有 两 组 样本 多样 本 和 YY 样本， 大 小 如 为 10。 只 
体 值 为 ; 

玉 样 林 ，7，6，7 ,5，4，6，5，6，6，5， 

不 祥 本 ，5，86，6，3，4，7，4，5，5，6， 要 计算 
Wilcoxon 秩 和 和 统计 晤 厂 ， 皮 六 样本 在 平均 法 之 下 的 秩 禾 . 

竺 把 会 样机 按 由 小 到 大 排列 ， 并 以 * 标 出 立 样 本 〈《 * 号 标 在 
结 中 何 处 无 关 紧 要 ) : 


3 5.35.5 
T= 1 Tt 3 Ts= 6 
6%,， 6,6*, 6.6.6.6, ?7# 7, 7, 
na Ts 3 


“120% 


d= 1 d= 3, ds=15/2, ds=14, ds=19, 
因 4(2)= 人 ? 标 出 tie= ds 1 =1,'*…,8 ,于 是 区 () 汶 Cd,) = {i 
Yi 一 工 5 。 按 平均 法 ，10 个 样本 所 占 之 秩 分 别 为 1，3， 
3，1357/2，1572，1572,14，14，14,19。 玫 是 它们 的 和 ， 即 90.5。 
形式 地 按 ( 4.28 ) 算 ， 则 须 先 定义 

CC 一 … 一 Ci 一 0 ee 1 
然后 撤去 碟 ,-- 1， 矶 一 及 ,一 19 去 计算 。 

另外 ， we 它 相当 于 直 公 式 (4 3) 和 (#4.4) 

给 出 的 杞 (Z) 和 VartZ)， 


也 了 ， N 
pin 058 OT) (rd na Sea (4°29) 
2 一 ‘ol :t= 


寻 其 
共 中 5 = Zc/n A 
=1 41=1 


现 设 有 一 来 线性 秩 统 计 曙 ( 接 平均 法 定义 》， 
> cnt Ry, 1 二 1 ,2,… 


对 每 个 固定 的 ,定义 (4129) 的 欧 s 和 on(7) .好 把 ci; 疏 为 cuty 
(i) 疏 为 Qa(2) 夫 计 算 dw 和 ;以 之 取代 (4.29 ) 中 的 5 和 &. 又 
这 时 7，9 ， 上 志 等 当然 也 与 祁 有关 ， 
定理 4.4′ 设 {(Cps Cng) :1 ,2 下 及 {nC := 二 
下} 潢 足 定理 4'4 的 条 件 ， 出 当 六 1 yy 为 简章 样本 (总 体 体 
i 


(VF, — Hara) /On (7) 2 1)。 《4.30 》 

类 羽 她 ， 定 理 4.5 和 4.6 也 可 以 完全 平行 地 推广 到 现在 的 情 
况 。 一 言 以 南 之 ， 只 要 定理 4.4 一 4.6 中 某 一 个 的 条 件 成 立 ， 而 
线性 秩 绕 计量 上 , 按 平 均 法 修改 为 上 上,， 则 相应 于 该 定理 的 渐 近 正 
态 结果 对 六 , 有 效 。 

银 据 这 一 结果 ， 如 使 用 平均 法 , 则 在 样本 大 小 较 大 的 情况 说 
使 用 极 电 分 布 作 和 检验 并 无 困难 、 
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四 、 样 本 独立 但 不 同 分 布 时 

前 面 几 怒 店 斌 究 的 都 蚌 桩 林 为 独立 间 分 布 的 情况。 在 秩 方 法 
的 研究 中 ， 也 视 要 考虑 祥 本 不 同 分 布 的 情形 ， 例 如 ， 在 两 样本 问 
题 中 ， 在 原 假 设 下 时 总 体 分 布 正 、G 相同 ， 样 林 回 然 为 独立 同 分 
布 。 但 如 要 研究 检验 的 功效 ， 则 涉及 对 立 假 设 ， 因 而 要 考虑 严 与 
C 不 同 的 情形 。 这 时 料 本 只 狐 立 但 不 同 分 布 ， 

当 样 本 不 同 分 布 时 ， 无 论 是 线性 秩 统 计量 的 精确 分 布 或 其 极 
措 分 布 问 题 ， 都 比 同 分 布 时 复杂 得 多 . 就 两 样本 问题 《这 时 只 涉 
及 商 个 不 同 的 分 布 ,情况 相对 而 言 简 单 些 ) 的 线性 秩 统 计量 来 说 ， 
第 一 个 有 证 外 意义 的 重要 结果 是 Chernoff 和 Savage 在 1958 年 
作出 的 ， 后 来 到 1965 年 经 过 Govindarajulu 作 了 改进 ， 以 下 我 
们 将 不 加 证 明 地 引述 这 结果 的 一 个 特 吻 情况， 到 1968 年 ，Hajek 
在 一 项 下 归 圭 作 中 ， 这 论 了 各 样本 的 分 布 都 可 以 不 网 的 情况 ， 

现 设 避风 和 了 ， sn 分 别 为 抽 自 其 分 布 玉生 的 
总 钵 的 简单 祥 本 ， 且 假定 合 样 本 爹 体 独立 ,又 下 和 G 都 处 处 连续 ， 
记 二 和 4 二 7, 以 R, 记 六 在 合 样本 中 的 秩 ， 了 一 1 。 设 函 
数 CCU) 冠 义 于 0< rt 1 。 令 


af ， a 《4*31 ) 


事实 上 ， 此 统计 量 与 大 1 和 都 有 关 ， 理应 记 为 Sia 为 简便 计 
就 记 为 we。 以 下 几 个 量 也 属于 这 种 情况 , 以 及:(X) 记 合 梯 本 
E.R 了 ,的 经 验 分 布 函 数 ， 如一 ja， 而 


"=| a (Hatx) jdGtx), 《4°32 ) 


o2=201—h) (oh + A404 ), (4.33 ) 


其 中 


22 。 


ou= | Fd-F)a Ht) (Hy)), 


—%m<t<m 


s dO Xd y), C4.31) 
oa， = 1 G1 GVA Hz) a (Hly)) 


fey cw 
aF(x dF (ly), 《4:35 》 

有 如 下 的 定型: 

定理 4.7 了 7 在 上 述 诸 假 定 和 让 号 下 ， 再 假定 。 

《1) 大 在 21 证 0, 舍 友之 和 4 之 1 一 6， 对 一 切 4。 

(2) 存在 常数 52>0 及 KK， 借 

[ei Ka ~ Ti OZ<UuZl, 1 =0,1 
性 生 a 中 二 A) EVN) -a(n), 

(3) 存在 290， 使 

max(g8 03,) 这 6， 对 一 切 4， C4.36) 
珊 当 50 时 有 

TY 


MR (Sus) /0.— > N01). C 4.37). 
类 似 的 结论 对 和 定 襄 45 中 考 碟 的 异种 计 分 也 有 成 站， 设 
tow 和 … 研 cn) 是 从 分 布 泊 数 马 (X) 中 抽出 的 简单 样本 ， 而 
一 2 SE (Cp.)) 《 4.38 》 
302 t=1 多 


又 以 at)》 记 .4.7) 的 反 函 数 。 

定理 4.8 车 对 这 样 定 义 的 画 数 &(' :定理 47 的 条 件 (1)~~ 
《3) 都 满足， 而 sn 由 (4:38) 定 义 ， 则 当 2 一 co 时 仍 成 立 54.37) 。 

五 、 符号 秩 统 计量 

竹 号 秩 统 计量 来 源 于 对 称 中心 的 检验 问题 ,， 设 下 ,… ,于 ,人 息 
雁 总 体 分 布 (x 一 0) 中 抽 得 的 等 单 样本 ， 其 中 玉 C(XY) 为 关于 款 点 
对 称 的 分 布 ，8 为 实 参 数 〈 了 邯 总 体 分 布 关 于 868 对称》，F，0 总 
未 知 ， 要 检验 原 假设 0 二 966 或 8 去 06《 或 9 之 00) ,以 下 不 失 普 六 
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性 ， 总 设 6, 二 0。 这 只 要 用 XX; 一 0 代 X; 即 可 。 如 要 用 和 铁 方 法 来 
答 验 这 个 问题 ， 风 我 们 可 这 样 息 , 设 若 0 夫 0， 比 如 说 9>>0. 刚 样 
本 As 中 ， 取 正 值 者 借 沼 于 多 ， 而 那些 取 绰 值 的 样本 ， 其 
在 {| 失 中, 汉中 的 秋 也 倾向 于 大 。 基 于 以 上 的 考虑 ， 
可 建立 原 假 设 的 种 种 秩 检验 法 ， 细 节 待 以 后 再 讲 ， 此 刻 我 们 只 注 
涉及 气 , 的 符 导 。 这 导致 以 下 关于 符号 秩 的 概念 。 

定义 4'2 和 暂 设 | 文 ,| ,…,|] 广 ,| 互 不 相同 , 记 

Wr Rt = | 到 ,在 { ;全 1 多 ”和 | 县 | } 中 的 秩 ， 1 一 1， 
| 

Rr=(¥V Ri, VR ), (C4'39) 
称 为 样本 兰 ,,…, 广 ,的 符号 秩 统 计量 ， 

简 言 之 ， 符 号 秩 统计 量 的 意思 是 ， 车 站, 志 0， 则 其 符号 秩 定 
为 0, 若 攻守 0， 则 气 ， 之 符号 特定 义 为 X， 在 1{ | 人 1 ,… ,| 人 ,| 中 
之 秩 , 任 何 由 RR! 派生 出 的 统计 量 也 称 为 符号 秩 统 计量 ,例如 


1 一 了 《 Wilcoxon 一 样本 符号 秩 和 >》。 《4.40 ) 


这 是 一 线性 从 号 秩 统 计量 .更 一 般 的 形式 为 
了 YeCRfD)ws (4.41 ) 


此 外 47 站 定义 在 j=1,2,…,h 上. 
关于 符号 秩 统 计量 的 分 布 有 如 下 的 结果 ， 
定理 4.9 设 六,,…, 广 ,为 措 自 总 你 分 布 玉 的 迄 单 样本 ， 下 
处 处 连续 且 关 于 0 对 称 . 定 义 ¥, ,RE 如 前 ), 则 (多 瑟 二 
有 R; ) 的 联合 分 布 由 以 下 几 条 所 决定 ， 
《1)》 CV) 及 LRTI, ) 独 立 ， 且 六，… ,为 ijd.,; 
(2) PY =D=P=0)=1/2, i =1,.,n; 
C3) CR) 让 (1,… ,1) 的 任 一 置换 的 概 罕 都 是 1/41， 
证 明 ”每 个 Y 只 能 取 0,1 两 值 。 故 (9 ys》 只 能 取 形 如 
=。124。 


《gs 的 2 个 介 ， 其 中 如 为 0 或 1 任意 固定 这 样 一 个 值 ， 
例如 〈0，…051， 1)《 前 面 培 个 为 90， 后 % 一 说 个 为 1 )。 在 条 件 
01) 之 下 劳 虐 《十 ) 的 条 作 分 
布 。 由 所 设 条 件 知 ， Xi 上 起 韭 正 值 ， 而 Xm 取 正 
人 利 . 由 于 和 关于 0 对 称 ， 知 对 每 个 4 在 苹 ,>>0 的 条 件 下 1X ,| 的 
条 件 分 布 ， 与 在 条 件 SI<0 之 下 1 不 ;| 的 条 件 分 布 一 样 ( 由 于 下 
连续 ， 一 点 0 处 的 概率 为 0 ,可 以 不 计 》， 事 实 上 ， 易 知 这 两 个 名 
沁 下 条 件 分 布 函数 都 是 六 (xz) 一 (2 下 (xz) 一 1)7eexo。 由 于 天 处 处 话 
线 5 此 由 环 处 处 连续 ， 及 五 关于 0 对 称 因 而 (0) 二 1/2 可 知 )， 
内 定理 41:1， 知 (如 Hs，… ,Rit) 之 分 布 如 本 定理 的 ( 3) 所 示 . 以 上 的 
推理 在 (六 ,…, 交 ,) 辐 定 为 上 述 个 2* 个 值 中 任何 一 个 都 对 ,这 样 一 
沪 、( 有 RE,…, 民 #) 的 条 件 分 布 与 (VY,… ,Ys) 取 的 值 无 关 ， 因 而 证 
明 祝 二 省 独立 ， 且 CC RI,… ,R$ ) 的 无 条 作 分 布 ， 就 与 上 述 条 住 
分 布 相同 。 这 证 明了 本 定理 的 红 ) 和 (3) 译 于 (2)， 它 是 之 !，…'， 
芭 , 独 开 且 攻 ; 的 分 布 关于 0 对 称 的 简单 推论 .定理 证 毕 ， 
利用 这 个 定理 ， 原 则 上 可 以 《在 定理 条 件 下 )》 定 出 符号 秩 统 
计量 KK! 及 任何 线性 符号 秩 统 计量 的 分 布 .这 一 分 布 可 供 在 入 不 
大 时 ， 检 验 原 假设 6=0 或 60 之 用 .例如 ， 设 ?= 一 4。 若 定理 19 
的 条 件 适 合 且 8=0， 则 易 算 出 (具体 计算 留 给 读者 ), 由 (4.40) 
定义 的 Wilcoxon 一 样本 符号 秩 和 统计 量 V+ 有 分 布 当 下 : 


P (W+— i) 一 再 ， =0,1,2,8,9,10 


= t =3,4,5,6,7。 


设 要 检验 的 原 假设 为 9 一 0， 对 立 摄 设 为 0 关 0, 当 关 0 时 ,Wt+ 倾 

向 于 赴 身 两 个 极端 ( 取 大 值 ( 当 9>0) 或 小 值 ( 当 8<0)7， 故 

应 取 边 上 之 伪 置 子 否 定 域 中 ， 如 取 检 验 水 平 &=1/8， 可 取 否 屿 域 

为 {0,10}, 若 4=1/4, 可 取 否 定 域 为 {0,1,9,10}. 如 原 假设 为 6 专 

《 对立 假设 9>0)， 则 应 只 取 玉 * 的 大 值 于 耕 定 域 。、 如 2=1/8， 
* 125s 


可 取 否 定 域 为 19,10}, 当 a 不 是 1/16 的 倍数 时 ， 如 要 严格 达到 了 秽 
定 的 水 平 a， 则 必须 施行 随机 亿 。 当 4 较 大 时 ， 这 往往 没有 必 
要 ， 因 可 以 通过 各 微调 疙 < 之 值 ， 以 避免 这 种 随机 化 ， 

如 果 半 相当 大 ， 则 WW*， 或 其他 线性 符号 秩 统 计量 ， 其 分 布 
过 于 复杂 不 便 应 用 ,这 时 可 使 用 极限 分 布 。 

考虑 一 中 线性 符号 铁 统 计量 /+ 二 名 a(R+)Y,, 记 


名 A = 工 Xaz0z)。 
32 i=1 ?7 1=] 


定理 4.10 设 样 本 六 ,，…，X，, 满足 定理 4.9 的 条 件 ， 且 . 
Tas(1 QC70)) :4 二 1,2,…} 满 足 条 件 入 。 则 当 >so 时 ， 有 


2( L#— Yan)/ NAAi NO0,1), ( 4.42) 
证 明 根据 定理 4.9 易 知 ,Lt 与 总 qn(i)W, 辐 分 布 。 故 为 证 
《 442)， 不 妨 设 全 就 是 总 qn(DV 6。 由 于 VW，,…,Y 独立 ,这 表达 
式 是 一 个 独立 和 ， 其 渐 近 正 态 性 可 用 中 心 极限 定理 去 处 理 ， 此 处 : 


我 们 使 用 JIRIUYHOB 定理 ,出 于 EY 二 1/2，VarY ,二 1/14, 根据 
该 定理 ， 为 证 《4.42)， 只 须 证 明 


lim 及 |esG1: 互 ly 一 上 1/{ La4a ) =0, (4.43) 
no0 FEL 2 “4 

而 此 式 显 然 可 由 下 式 推测 ， 
lim max |es(D I/{ SB a2) )2 一 0。 《4+44 入 


max|an (2)| maxi an(i) — an| t+ |in! 
1 所 了 ltisn 
及 
26 。 


SD atli) 一 也 (cs 一 2 十 753， 

的 4:44 ) 是 {an (Cl) syn) Ho=1,2,.} 浇 足 笨 件 入 的 简单 
推论 ,于 是 证 明了 (4.43)， 因 而 定理 4.10。 

应 注意 到 本 定理 与 定理 4.4 的 实质 不 同 处 。 本 定理 处 理 的 统 
计量 貌似 复杂 ， 实 际 上 即 为 通常 的 独立 和 ， 在 这 一 点 上 说 没有 什 
么 新 东西 。 定 理 4,4 中 的 线性 牧 统 计量 不 是 独立 和 和， 其 处 理 用 到 
:特殊 的 技巧 。 

定 王 4.10 有 两 个 特例 值得 注意 : 

1. Qn(i) 一 9 (一)， 而 PESS 见 定理 4-4 前 面 一 段 的 


N+1 
说 明 )， 
2. dn(2) 二 E99 (Uw), PESS， 这 里 Dan 和 Vmw 是 从 
《0,1 ) 均匀 分 布 中 抽出 的 次 序 样本 ， 
这 只要 证 朋 ， 如 此 定义 的 an( 引 使 条 件 N 满 足 ,对 前 者 这 很 容 
- 易 ， 留 作为 习题 .后 一 条 的 证 明 则 比较 难 一 些 ， 
例 4.5 对 Witcoxon 符号 秩 和 检验 他 *， 有 ca() 一 7 ， 算 


出 
Ca 一 (1 1)/2, 


As = nn+1) (24 十 1)/1 一 五 Cnt+1) (C2n+1), 
据 (442), 得 到 双 侧 假设 6=0 的 水 平 4 大 样本 否定 域 为 
FL et |>( (nt1) (21+ 1 / (2 B) )uass, 


- 单 便 假设 8 专 0 的 否定 域 则 是 
{W: > et D+((n Cn Dant DD)) (v6 )uo}. 


本 


者 取 a(i)=1， 所 得 检验 妃 称 为 符号 检验 、 对 此 检验 有 
EC 一 1， A2=1 


按 《4*42), 得 到 双 侧 假设 4=0 的 水 平 a 大 样本 否定 域 是 {1B 一 
° 127。 


1 i SA 3 de 扩大 生生 友和 全 
| > BY ta . 单 其 假设 9<0 的 宇 定 域 则 古 


te 全 


(B>Z+ FV Nu), 


$ 4.2 一 、 两 样本 检验 及 其 优良 性 


如 前 所 述 ， 一 样本 问题 是 指 ， 设 从 一 对 称 分 布 中 抽出 了 一 些 : 
简单 样本 ， 亚 据 凡 检验 关于 对 穆 中 心 8 的 候 设 ， 一 般 是 2 一 0 
0s<8u 及 0 关 0 等 ，0 为 绎 定 的 数 。 两 样本 问题 则 指 有 商 组 样 本. 
分 别 损 自 分 有 下 和 GG ， 杰 人 答 验 假设 下 = G ,或 其 他 单 侧 性 的 假设 . 
全 如 已 知 CC 一 有 7 一 和) 要 检验 6 去 0。 这 些 阿 题 在 实用 上 右 息 
大 意义 。 在 参数 统计 中， 往往 假定 总 体 分 布 为 正 态 型 ， 这 时 常用 
的 检验 法 就 是 熟知 药 一 、 丙 样本 礁 验 。 在 对 总 体 分 布 并 无 特定 的 
假定 时 ， 问 题 为 非 参 数 性 的 .统计 学 者 提出 了 许多 检验 法 ,使 用 线 
性 秩 统 计 笃 及 线性 符号 秩 统 计量 区 方法 ， 是 其 中 重要 的 一 类 ， 

本 节 将 先 提出 这 类 检验 法 中 一 些 著 名 的 例子 。 通 过 这 些 例 子 
尊 到 ， 同 一 问题 可 供 选 择 的 秩 检验 很 多 ,那么 先导 一 个 好 呢 ? 要 回 
和 谷 这 个 问题 ， 就 需 查 考察 秩 检验 的 优良 性 ， 本 节 将 提出 两 种 优良 
性 准则 ,作为 比较 的 标准 ， 

一 、 重 要 的 一 、 两 样本 牧 检 验 

1， 两 样本 位 置 参数 秩 签 蛤 

闷 题 的 所 法 ， 我 们 在 本 书 的 开篇 处 的 例 1:1 中 就 表述 过 了 : 
简单 样本 天 ?天 来 自分 布 (x) 而 了 1,… Yh, 米 自 全 《一 
9)。 分 布 瑟 及 参数 6 都 未 知 ， 要 伶 验 关于 8 的 假设 通常 有 

H:9=0,; H,:0 0s IH,:0>0,， 
各 有 相应 的 对 立 假 设 。 不 失 普 过 性 以 下 总 假定 00=0。 又 假定 丘 处 
处 连续 ,如 这 个 不 成 立 ， 则 用 处 理 绪 的 方法 法 对 付 ， 
用 秩 方法 来 检验 这 些 候 设 ， 思 想 很 简单 : 以 展 ,五 。 分 缠 
<。 128。 


记 了 1,-… ,wo 在 合 样本 中 的 秩 。 车 9>>0， 则 因 每 个 也 的 分 布 与 
每 个 人 TB 的 分 布 相 同 ， 了 样本 倾向 于 取 比 式样 本 更 大 的 值 , 注 
意 这 里 “ 慑 向 于 ”是 一 种 统 观 而 含糊 的 说 法， 它 并 不 意味 着 了 样 
本 一 定 比 耻 样 本 大 。 电 a ld tt # 机 .会 ” 
更 多 ， 而 小 于 它 的 机 会 则 少 .这 样 一 来 ，R1,… ,Ronz 当 09>0 时 颁 
向 于 取 集 合生 ,2,… ,2} 中 较 大 的 值 (hn 二 7 十 74,) ,同样 ， 车 6 过 0， 
则 无 ,,… ,也 ,倾向 于 取 集 合 {1,2,…, 2} 中 较 修 的 值 .因此 ， 车 取 
一 个 定义 在 代 ,2,…,n}. 上 非 隆 的 计 分 函数 &(:), 则 统计 量 


L = Xa(R,), 《4.45 ) 


当 >0(06<0 ) 时 倾向 于 取 大 (小 ) 值 .因此 ,在 检验 原 假 设 妃 ,时 ， 
可 以 把 工 的 两 端的 极端 值 放 入 否定 域 ， 如 果 n1=Ns， 或 者 函数 
4 满足 条 件 《 4.7), 则 根据 定理 4.2， 当 原 假 设 再 , 成 立时 工 的 分 
布 关于 点 Rs& 对 称 ， 因 而 否定 域 可 取 为 

{IDL=w6l SC a= th 《4.46 》 
常数 C 根 所 水平 a 定 。 如 内 计 分 函数 a(-) 满 足 定理 4.4 或 4.5 中 
的 和 条件， 且 min(n,,,)->00, 则 在 五 ， 成 立时 ， 有 


TD CL 0 
y Hr WE ma/AW Sali) 5)2. NC0,1). (4.47) 


因此 当 n 和 x 都 较 大 时 ， 对 给 定 的 水 平凡 〈4:46) 中 的 C 近 
似 地 可 取 为 


人 1 2 172 1 
C= (Sa GD 一 可 Ts ep ( 4.48) 


远 择 种 种 适合 上 述 条 件 的 计 分 函数 &(，),， 斌 可 以 作出 种 种 
不 同 的 秩 检验 ， 闪 中 有 几 个 落 名 的 我 们 已 在 前 面 提 到 过 : 
Wilcoxon 检验 ， 取 C(z) 一 二 ) 
Fisher-Yates 检 验 ， 琅 400) 一 EEw， 其 中 性 委 … 寺 tmw 是 从 
标准 正 态 分 布 NO,1》 中 抽出 的 次 序 样本 【前 已 指 出 ，Fisher- 
。129 。 


Yates 表 中 载 有 Ectn 之 值 ) .注意 对 这 个 Z&0) 有 a=0.Terry 在 
1952 年 讨论 过 这 个 检验 ， 故 有 时 这 检验 也 冠 以 Fisher-Yates-. 
Terry 之 名 称 。 

Van der Waerden 检验 取 a)! 


), 此 处 ~! 为 


标准 正 态 分 布 评 数 王 的 反 函 数 , 这 个 检验 是 Van der Waerden 在 
1952 年 提出 的 。 

之 所 以 要 考虑 种 种 不 同 的 检验 ， 其 理由 正如 滩 辐 一 种 病 有 医 

干 种 方法 ， 其 选用 根据 具体 情况 而 定 。 在 此 ， 总 体 分 布 瑟 如 何 ， 
与 检验 的 性 能 有 很 大 关系 ， 针 对 在 应 用 中 可 能 遇 芭 的 种 种 下 设计 
不 同 的 检验 ,在 使 用 时 根据 所 了 解 的 情况 从 中 适当 挑选 ,就 能 达到 : 
中 好 的 效果 ,例如 ， 若 下 为 正 态 ， 则 以 后 将 指明 ， de 
中 以 采用 Fisher-Yates 检验 或 Van der Waerden 检验 最 好 。 
者 可 能 会 有 这 样 的 问题 ， 如 五 为 正 开 ee 
优良 检验 ,何必 还 要 用 Fisher-Yates 或 其 他 秩 检验 ? 这 问题 问 得 
好 。 问 题 在 于 ， 我 们 可 能 有 相当 的 把 握 认 为 五 是 正 态 ， 而 无 确实 - 
的 把 握 .车 仅 采用 上 检验 , 则 万 一 五 真 不 为 正 态 ， 就 可 能 产生 严重 
上 后果 。 为 咏 符 这 种 可 能 ， 我 们 采用 非 参 数 提 法 ， 而 又 把 效率 最 大 ， 
指 广 向 定 在 正 态 分 布 土 ， 以 使 当 分 布 已 确 为 正 态 时 效果 很 好 ， 而 . 
即使 己 不 为 下 态 ， 检 验 仍 维持 一 定 的 性 能 。 这 样 就 基本 上 上 兼顾 了 
两 方面 的 需要 ， 

以 上 的 分 析 也 说 明了 这 样 一 个 重要 的 思想 ， 虽 则 非 参数 统计 
方法 是 建立 在 模型 很 广 的 基础 上 ， 以 对 付 由 于 对 模型 分 布 无 确切 
了 解 的 情况 ， 但 这 决 不 等 于 说 ， 当 使 用 非 参数 方法 时 ， 我 们 可 以 
不 用 费力 去 搜集 关于 总 体 分 布 的 尽 可 能 充分 指 知 次 。 相 反 ， 这 步 
工作 做 得 愈 好 ， 我 们 对 总 体 分 布 了 解 得 愈 多 ， 就 人 意 有 可 能 选择 能 : 
全 对 党 前 问题 的 方法 ， 对 总 体 分 布 的 了 解 ， 除 依据 对 问题 的 专业 
务 梁 ， 有 关 的 理论 及 以 往 的 经 验 外 ， 样 本 数据 也 常 能 提供 一 些 有 
形 的 信息 。 
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以 上 的 讨论 针对 假设 8 二 0, 对 单 侧 假 没 0 志 0 或 8 之 0， 情况 
完全 相似 .如 对 6 忆 0， 否 定 域 应 取 为 上 之 C*。 按 渐 近 正 态 近似 ， 
‘C* 可 取 为 


Ce mat (Sali) a) Ty) ue (4.49) 


2。 两 样本 刻度 参数 秩 检验 

设 有 抽 自 总 体 分 布 (Xx) 的 简单 样本 头 ,,…,X。， 和 抽 自 总 体 
分布 EXAa) 的 简单 样本 了 ，… ,了 ;,,。 此 处 分 布下 及 参数 5>>0 都 
未 知 。 变 检验 关于 5 的 假设 ,， 通常 有 Hi:o=0,， 如 :as 和 co 和 
如 :0 之 00。， 各 有 相应 的 对 立 假设 .不 失 普 谢 性 以 下 总 假定 co 一 1。 
这 可 以 通过 用 5o 么 : 代替 兰 ; 而 达到 ， 

2 称 为 刻度 参数 ， 是 因为 了 , 的 分 布 与 cy 相同 , 换 句 话说 ， 
从 分 布 的 角度 看 ， 大 样本 与 王 样 本 之 差别 ， 相 当 于 同一 个 量 在 不 
同 单位 的 坐标 系 之 下 所 产生 的 差别 ， 

刻度 参数 两 样本 问题 比 位 置 参数 的 情况 要 复杂 些 .问题 在 于 ， 
在 位 置 参 数 的 情况 ，Y 样 本 (就 分 布 而 言 ) 相当 于 六 样本 加 上 6， 
因此 8>0 时 王 样本 秩 倾 向 大 ，29<0 时 倾向 小 ， 这 个 总 的 趋势 与 
总 体 分 布下 无 关 ( 这 一 点 很 重要 ) ,但 在 刻度 参数 情况 则 不 然 。 例 
如 ， 设 “>1. 这 时 ， 世 样本 (在 分 布 上 ) 相 当 于 尺 样 本 乘 以 .如果 
性 的 分 布 严 全 在 正 轴 一 边 〔 即 (0) 二 0), 这 时 弱 以 e 的 后 困 使 Y 
料 本 倾向 于 赠 天 。 反 之 ， 若 环 全 在 负 轴 一 边 (FR(0)=1), 则 情况 正 
好 相反 . 若 天 在 原点 两 边 都 有 分 布 ， 则 乘 以 1 的 后 果 是 使 正 者 
哆 大 ， 负 者 更 小 ， 因 而 了 样本 倾向 于 走 极端 。 究 竟 是 那 种 情况 ， 
需要 有 关羽 的 知识 。 

解 类 这 个 困难 的 途径 有 二 .一 是 在 总 体 分 布 太 上 附加 一 定 的 
条 件 ， 鲍 如 ， 五 关于 原点 对 称 ， 或 至 少 其 中 位 数 为 0. 这 时 ， 落 在 
0 两 边 的 样本 个 数 大 致 相当 , 故 乘 以 o>1 后 ， 走 向 两 边 极端 的 样 
-本 个 数 也 大 履 相 当 。 这 个 考 卡 引导 到 下 述 秩 检验 方法 ， 选 定 一 个 

“两 头 大 中 则 小 ”的 计 分 函数 &6.), 即 注 足 条 住 
»131. 
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an fr ti 
Q(1) 之 4(2) 守 >a ([ 了 1) <aE ]+1) < 


QlH), 《4*50 》 
此 处 ?一 届 十 加， 而 [了 太一 ] 为 不 超过 如 5 一 的 景 大 整数 ， 设 原 
假设 为 c<1。 当 对 立 假设 成 立时 ao>>1。 这 时 ，yi，…，7w 在 合 样 
本 中 的 秩 倾 向 于 跑 到 两 侧 极 端 。 按 (4.50)， 工 一 沁 e(R,) 会 个 


向 于 大 ,由 此 得 出 ， 应 取 5>C 为 理 定 成 ，C 可 根据 水 平 由， 通过 
小 样本 分 布 《 当 到 小 时 ) 定 出 ， 或 在 1 较 大 时 ， 用 下 访 通 近 而 得 
到 的 公式 (4.49) 定 出 .如 果 检 验 5==1， 则 否定 域 取 为 双 侦 的 、 
在 大 样本 情况 由 《4.46) 和 (4.48) 定 出 . 

其 所 以 要 假定 中 位 数 为 0， 有 重要 的 理由 。 设想 一 种 情 况 : 
(0) 一 1/5, 这 时 ， 有 4/5 的 概率 使 天 样本 取 正 值 ，175 取 负 值 ， 
放大 体 上 说 ， 久 样本 和 YY 样本 各 有 4/5 左右 在 0 点 右边 。 这 部分 
样本 了 倾向 于 比 信 大 。 另 1/5 左右 的 术 本 则 相反 ， 站 倾 各 于 小 于 
怀 ， 从 整体 而 言 ，z 盖 : 使 六 样本 之 秩 增 太 者 儿 而 减 小 者 小， 这 
洲 ， 一 个 单调 上 乱 的 计 分 沙 数 要 比 满足 《4:50 ) 的 计 人 外 函数 更 切 
合 于 检验 0 二 1， 而 《44-50 的 分 辩 力 很 差 ,只 有 在 中 位 数 为 0 时 。 
0 两 边 祥 本 个 数 相 当 ， 选 择 满 由 条 件 ( 4.50 ) 的 计 分 函数 才 最 有 
利 , 几 个 有 名 的 例子 如 下 : 

Mood 检验 a( 让 二 | 2 -2 


是 Mood 在 1954 年 提出 的 ， 
Ansary-Bradley 检验 ，a(i) = | i 一 | 是 这 两 位 作 
六 
潜在 1960 年 提出 的 。 
Copan 检验 ，4( 让 二 如 ,、， 此 处 5 所 … 才 nn 是 从 NN(0,1》 
入 和 出 的 次 序 样本 . 注意 、， 由 入 (0,1) 关于 0 对 称 易 知 ( 请 读者 
守 出 证 明 )《 4'50 ) 满足 ， 且 CD: 一 GOTL 一 1)。 比 检验 是 Copant 


。T32 = 


在 1961 年 提出 的 。 


Klotz 检验 ， a = (BH ))’, 1962 年 提出 。 此 处 全 


为 入 (0,1) 之 分 布丁 数 ， 1! 为 其 反 函 数 。 我 们 留 给 读 省 去 验 
证 ， (450) 满足， 上 且 4(2) 一 a(n 二 1 一 2)， 

Siegel-Tukey 检验 ， 是 1961 年 提出 的 。4(2) 的 取 法 是 ， 
妈 (1 一 好， 人 (和 ) 一 基 一 1，Cf( 玫 一 1) 一 好 一 2， 人 (2) 一 天 一 53， 4(3)= 
天 一 :4 人 (天 一 2) 一 基 一 5，C( 天 一 23) 一 到 一 86， Cd4) 一 名 一 7，…， 读 
者 个 礁 夺 上 问 其 一 般 规 律 何 在 。 

根据 定理 4.4 和 45, 不 难 验 证 ,在 以 上 所 有 的 检验 中 ，a&a(*)》 
的 取 法 邦 便 在 c 一 1《 即 两 总 你 同 分 布 ) 之 下 ， 检 验 统计 量 志 一 
衬 <(R,) 适 合 斯 近 正 态 定理 《4-47) ,其 中 ，Siegel-Tukey 检验 中 
&(.) 的 取 法 有 一 个 特点 ， 即 4(2)，2 = 二 1,…, hn， 取 遍 1,2,*…' ,7 
中 各 人 展 上 且 仅 取 一 次 。 因 此 ， 在 “=1 之 下 ， 该 检验 的 检验 统计 量 
与 熟知 的 Wilcoxon 统计 量 有 同一 分 布 。 

另 一 -种 作法 是 把 样本 作 一 个 平移 ， 以 达到 中 位 数 为 0 的 要 求 . 
具体 作法 是 ， 用 多 样本 对 (x) 的 中 位 数 作 一 估计 。 设 为 诬 ,( 例 
如 ， 取 文 1,…, 广 ,的 样本 中 位 数 .类 似 地 ,用 样本 对 F(x/o0) 
的 让 在 数 作 一 估计 ， 设 为 成 ;, 然 后， 邻 
KX =X A = Y=Ys MM, 7 一 1 (4:51) 
等 认 《〈 和 和 (六 7) 出 发 ， 按 前 面 已 知 中 位 
数 为 0 的 情况 去 处 理 即 可 .应 当 注 意 的 是 ， 由 于 观 , 依赖 于 所 有 
的 生 全 oa， 故 瑟 31, 有 1 将 不 再 是 独立 的 .对 了 了 所 
有 同 祥 的 问题 ， 因 此 ， 形 式 上 再 引用 和 定理 4.4 和 4'5 已 不 行 ， 必 
须 再 加 上 补充 的 论证 .当知 得 # 都 相当 大 时 , 佑 计量 家 ,和 疯 , 与 
中 位 数 真 确 值 ?4 及 7Wzs 很 接近 ,因此 这 种 做 法 ， 与 中 位 数 严 格 为 
0 的 情况 相 比 ， 不 会 有 多 大 的 偏差 .zt 和 3 较 小 时 由 不 然 ， 且 
帮 过 变换 《4.51 ) 后 ， 工作 0 二 1 之 下 的 确切 分 布 也 很 不 易 求 ， 
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其 所 以 要 提出 一 些 检验 法 供 选 择 ， 其 理由 当然 与 位 置 参 数 和 的 
情况 相同 ， 

3， 对 称 中 心 的 检验 

问题 提 法 已 在 84.1 的 五 段 中 说 明 过 了 ,样本 入 ,,…, 广 , 抽 自 
总 体 分 布 记 (t 一 9)， 已 知 分 布 太 (x) 关 于 0 对 称 ， 因 而 6 为 总 体 分 
布 的 对 称 中心 ， 要 检验 假设 9=9。，69 志 0。 或 ?po， 各 有 相应 的 
对 立 假设 ;不 失 普 记性 可 设 6 一 0 。 

检验 方法 在 §4'1 的 五 段 中 己 说 明 过 ， 先 由 样本 定 出 符号 秩 ， 
贿选 定 计 分 函数 &C') 而 作出 形 如 《4:41) 的 检 强 统计 量 Lt ,at:) 必 
人 须 在 集 入 ,2,…,n} 上 非 降 ， 且 使 条 件 入 满足 ,这 时 当 4 较 大 时 ,可 
以 定理 4:10 去 决定 检验 统计 量 的 临界 值 。 

a(*) 的 不 同 取 法 导致 种 种 的 检验 法 ;以 适应 各 种 不 同 的 情况 . 
最 重要 的 除 前 述 的 Wilcoxon 一 样本 符号 秩 和 和 闪 验 〈 兄 (4.40) ) 
外 、 还 有 符号 检验 (Signtest) ,相当 于 取 4()=1，3 一 1,*… 出 
它 产生 的 检验 统计 量 ， 就 是 样本 入,,…, 医 , 中 符号 为 正 的 个 数 。 
符号 检验 以 此 得 名 。Fisher-Yates 和 Van der Waerden 检验 ， 
也 可 移 至 一 样本 情况 ， 此 处 不 细 述 了 了。 

二 、 失 验 的 渐 近 相对 效率 

在 一 毁 中 ， 就 见 个 重要 的 检验 问题 ,提出 了 一 些 秩 粒 验 , 以 备 
在 种 种 可 能 的 模型 下 去 选择 使 用 、 为 具体 进行 挑选 ， 就 需要 确定 
一 各 准则。 不 同 的 检验 在 该 准则 下 比较 其 优 劣 ， 而 决定 去 取 ， 

这 里 从 两 个 检验 的 相对 效率 这 个 角度 ， 米 引进 一 种 比较 的 淮 
风 。 简 言 之 ， 设 为 检验 同一 假设 ， 有 4 、B8 丙 个 检验 可 有 用。 定义 
4 对 嘱 的 相对 效率 ， 暂 记 为 e4ys( 瑟 ). 这 里 葛 五 表示 模型 中 涉 及 
的 分 布 。 设 想 我 们 对 所 有 可 能 的 五 都 能 计算 esya(z) 之 值 .对 当前 
的 检验 问题 ,% 我 们 先 根据 所 了 解 的 情况 ， 确 定 一 个 认为 最 可 能 的 
五 ， 比 方 说 。 确 定 为 正 态 分 布 .对 玖 为 正 态 去 计算 ea;ps( 五 ;之 值 。 
藻 它 大 于 1， 则 和 4 优 于 BB 而 我 们 选择 检验 A。 车 ciya( 天 ?二 1 则 选 
择 B .有 时 我 们 对 玉 的 了 解 不 多 ,不 足以 有 把 握 地 确定 一 个 可 能 的 
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五 。 即 合 在 这 厦 情 况 ， 这 个 方法 仍 有 参考 意义 ,比方 说 ， 我 们 对 
esa( 五 ) 当 五 到 种 种 开 型 的 分 布 时 其 取 值 情况 有 了 解 , 则 会 发 现 ， 
对 多 数 在 实用 上 有 意义 的 分 布 而 言 ，e4sa( 玉 ) 大 于 工 涛 居多。 这 
可 以 饰 释 为 ” 综 含 地 条 及 优 于 BB。 在 对 五 知 之 不 多 的 情况 下 ， 选 
人 4 的 理由 就 显得 更 充足 。 

数 使 用 这 个 方法 有 两 个 步骤 .首先 是 eays 人 五 ) 如 何 定 义 ， 
其 次 是 如 向 对 具体 的 互 算 出 其 数值 。 在 相当 大 程度 上 可 说 ， 后 一 
步 包 个 在 前 一 步 之 内 ， 因 为 有 了 定义 ， 就 能 导出 其 表达 式 。 实 际 
计算 时 当然 有 可 能 要 用 到 数值 方法 ， 

根据 假设 检验 中 流行 的 Neyman-Pearson 理论 ， 同 一 水 平 
下 的 两 个 检验 ， 功 效 大 者 为 优 。 也 可 以 换 一 个 说 法 ， 在 同一 水 平 
之 下 ， 为 在 同一 的 对 立 仿 设 下 达到 同一 功效 ,需要 样本 人 少 者 为 优 * 
且 样 本 大 小 之 皮 比 可 定 为 相对 效率 ， 

例如 ， 用 Wilcoxon 检验 (以 下 简称 多 检验 ) 去 检验 两 样本 


位 置 参 数 9 为 0, 取 7 二 7 二 5， 水 平 & 一 志 .实际 计算 表明 若 总 


体 分 布 为 方 莽 工 的 正 态 分 布 ， 而 位 置 参数 9 之 真 值 为 0.5、1 和 和 
1.5《 原 假设 不 成 立 》 时， 全 检验 的 功效 分 曾 为 0.072，0,210 和 和 
0.431. 而 为 变 了 上 检验 在 同一 检验 水 平 (2/63) 之 下 ,在 上 述 9 值 处 
达到 同一 功效 ， 分 别 需 取 2 一 9 之 值 为 :4840，4.890，4.805 
Cf 检验 的 功效 是 由 非 中 心 1 分布 计算 的 ， 其 表 法式 在 祥 本 大 小 
非 整 数 时 也 有 意义 .由 此 算出 ， 在 所 述 情 况 下 ， 爷 检验 对 t 检验 
的 相对 效率 ， 分 别 为 


4.840 
5 


一 0.9680， 一 .9780， 


二 -0.9610. 


4.805 
5 
这 说 明了 上 检验 《至 少 在 所 述 情况 下 》 优 了 于 阵 检 验 。 但 也 许 更 有 兴 
趣 的 是 ， 即 使 在 1 检验 最 能 发 挥 优 势 的 场合 ( t 检验 本 来 就 是 针 
对 下 态 分 布设 计 的 ，， 且 在 样本 大 小 如 此 小 的 场合 ，t 检验 对 全 

检验 的 优势 其 实 也 很 小 。 
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站 这 个 例子 也 看 出 , 厚 对 效率 是 一 个 很 复杂 的 东西 .除了 模型 
中 的 分 布 外 ， 它 还 依赖 于 检验 的 水 平 ， 样 本 大 小 ， 以 及 对 立 假设 
的 位 置 。 这 样 一 个 复杂 的 是 难以 掌握 ， 我 们 希望 能 加 以 简化 ， 使 
它 只 依赖 于 模型 的 分 布 素 ， 而 与 后 面 三 个 因素 无 和 关 。Pitman 在 
1948 年 通过 取 极 限 的 步 又， 定义 了 一 个 具有 这 种 性 质 的 量 。 这 藉 
入 所 谓 “ 渐 近 相 对 效率 ” (Asymptotic Relative Efficency， 简 
记 为 ARE) .不 难 理解 , 这 种 简化 要 付出 一 定 的 代价 ， 靶 它 上 只 有 在 
站 当 严 衬 的 条 件 下 ， 并 在 相当 有 局限 的 范围 内 ， 才 可 实现 。 下面 就 
来 善 手 定 义 Pitman 的 ARE， 

设 有 样本 和 ,…:,Z。( 划 在 两 样本 问题 ， QQ 可 以 是 
六 1 训 nis 了 1,… ,Yns)， 上 其 分 布依 巾 于 某 分 布下 及 一 个 实 参 数 
1 和. 在 前 夯 考 察 的 一 、 两 样本 问题 都 是 这 个 情况 。 考 虑 假设 检验 问 
是 

0=0<—>0>0,, (4.52) 
此 处 为 方便 计 ， 将 厌 假 设 取 为 6=9。 原 假设 为 < 和 9 的 情况 只 
须 作 少许 修改 。 设 3 和 他 是 这 问题 的 两 个 检验 。. 当 样本 大 小 为 姑 
时 ，S 和 工 可 更 明确 地 记 为 ,和 了 7s( 故 在 些 S 和 了 不 过 是 检验 
的 一 个 名 称 而 已 ， 如 t 检验 ， 秩 和 和 检验、 符号 检验 之 类 } ，5S, 和 
了， 也 拿 来 记 检 验 统 计 盟 ， 而 检验 的 否定 域 分 别 为 {So>cny 以 及 
{之 ds} .分 曾 以 BC, 玉 ,0) 和 prtn4,F,9) 记 检验 5S, 和 和 了。 的 功 
效 函 数 ， 

定义 4.3 《Pitman 的 ARE) 设 对 任何 指定 的 ,Pp,0< 之 a 之 
P<1， 及 一 串 下 降 趋 于 6 的 对 立 假设 值 8,，、 可 找到 自然 数 
的 两 个 子 列 {at} 及 {nl}， 以 及 检验 统计 量 的 临界 值 c, 和 中 ， 满 
是 以 下 的 条 伯 ， 


(1) lim bs (4, 刀 Do 一 Cs Jim Brin’ 0 一 0 
02 i Bel F, Ot 一 六 Lin Bron.F ,0 = 
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(3) 对 生 何 满足 (1 和 (2) 的 序列 fa 及 {akjh 极限 En zey jar 


放 存 在 ， 其 值 与 {ix} 及 {2x 的 取 法 无 关 ， 而 且 也 与 w,8。 及 收 
伍 于 b 的 序列 {4} 无 关 , 则 这 极限 定义 为 检验 S 对 全 的 浙 近 相对 
效率 ， 记 为 ARE(S,T; 五) ,我 们 来 对 定义 中 的 几 个 条 件 作 一 些 
解释 ， 

第 (1) 条 是 要 焙 两 检验 3 、T《〔〈 或 更 确切 地 说 ， 两 序列 检验 
Sn 和 1 了 oj 于 同 ) 部 有 渐 近 水 平 s。 第 (2) 条 是 指 在 对 立 假 设 
序列 16 上， 二 者 的 渐 近 动 效 相 同 。 因为 此 处 设 了 8<1， 一 般 会 
有 纪 趋 于 如 .因为 ， 若 tr 始终 保持 与 6。 有 一 定 距 离 ， 而 当 样 本 
大 小 很 大 时 ， 通 常 在 4 处 的 功效 将 趋 于 1《 这 一 性 质 称 为 检验 
的 相合 性 ). 圾 后 一 条 是 为 了 使 渐 近 效率 与 水 平 w、 功 效 入 及 {9cj 
都 无 关 ， 而 只 成 为 S 与 3 了 之 间 的 对 比 ( 当然 ， 它 还 依赖 天 ， 这 正 
症 所 需要 的 ) ,这 样 达到 我 们 上 面 所 说 的 简化 ， 

全 于 对 立 假设 选 为 由 一 实 参 数 标定 ， 是 为 了 使 在 太一 ce 的 过 


程 中 ， 浊 立 假设 的 变化 情况 能 更 有 规律 些 ， 以 便 使 极限 Bm ki ly 
区 存在 成 为 可 能 。 形象 地 可 以 这 样 设想 、 把 原 假设 看 成 军 耐 上 的 
一 个 点 ， 划 峙 全 是 对 立 假设 。 用 一 实 参数 标定 的 对 立 胃 设 类 ， 相 
亿 于 至 面 二 用 此 点 出 发 的 一 条 尘 射 线 . 在 多 元 函数 中 ， 让 变 元 随 
意 地 趋向 一 点 ， 丙 数 变 化 情况 可 以 很 复杂 但 如 沿 一 条 半 射 线 趋 
向 该 点 ， 则 转化 为 简单 的 一 元 情 珍 ， 

着 到 这里， 读者 也 许 会 感到 仍 有 记 不 足 ， 且 不 提 定 义 中 的 那 
些 限制 性 类 强 的 要 求 ， 这 样 定义 的 ARE (S$S,T》 上 只 在 样本 大 小 很 
大 (理论 上 是 无 穷 》 时 ， 才 能 成 为 比较 二 者 效率 的 合理 指标 ， 而 

通常 在 实用 中 样本 大 小 不 一 定 非 常 大 ， 因 而 在 每 一 具体 问题 中 ， 

我 们 都 难以 仪 任 悄 ARE 去 判定 两 检验 何者 为 优 。 这 问题 提 得 好 ， 
可 是 ， 这 不 过 只 是 统计 学 (及 其 他 数学 部 门 ) 中 常用 的 一 种 做 法 ， 
即 在 无 法 可 施 时 转向 取 极 限 。 这 在 相当 程度 上 反映 本 本 学 科 正 狗 
的 一 个 特点 、 水 平 及 局 限 性 ， 但 也 还 有 其 它 说 法 。 使 用 电子 计算 
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机 等 快速 计算 工 共 ， 在 有 限 样 本 之 下 计算 两 检验 的 相对 效率 ， 并 : 
无 原则 内 难 。 如 采 你 在 某 一 具体 场合 感到 必须 这 样 做， 不 会 有 人 
及 对 。 代 由 卫 有 限 样 本 带 来 的 复杂 性 ， 确 实 也 可 能 捡 盖 某 些 本 质 
的 东 王 .通过 双 鬼 限 把 它 提取 出 来 ， 无 疑 是 很 有 认识 意义 的 。 邑 
右 实 用 此 角度 说 ， 在 许多 重要 情况 下 ， 册 很 小 的 样本 算出 的 相对 
效率 ， 已 与 ARE 很 接近 。 例如 在 前 而 讨论 过 的 到 检验 和 t 检验 
的 对 比 中 ， 以 下 将 证 明 对 正 坊 分 布 而 言 有 ARE(W ,= 二 3/7=.. 
0.955, 这 与 那里 算出 的 玫 个 值 极 接近 ， 而 样本 大 小 R= 二 ps 一 5 

作 了 这 些 一 役 性 的 角 释 后 ， 我 们 来 在 检验 统计 量 有 浙 近 正 态 
性 ， 及 在 另 一 些 附 邵 假定 之 人 下， 推导 出 ARE 的 公式 .施加 的 低 : 
定 列举 如 下 ， 

(1) 存在 隔 娄 HCS,H0 ,PARCT ,N00,F),0(9,n,0,F) >0 
及 GTR,O0, 太 )>0， 使 当 扩 ie} 及 和 人 满足 定义 4.3 的 人) 和 (2): 
时 ， 有 


Fp 
(Si HSNO FNS 0 Fs NG0,1), (4°53 


YL 
(Tar 一 和 TD FONGT ,HR Po, FY——> NGC,1), 
( 4.547° 


和 Bs 
(Sa — LS RO F/OS, rs Ors FINO,1),(4.55 ): 


(Ts HOT ,Rs Ors PONG CT ,a, Ox, Fy NG0,), 
《4.56> 


《2) 作为 8 的 沙 数 ， 在 0。 附近 可 导 ， 且 当 有 >co 时 ， 有 
WS HOa FY/ CS, N00 1)>1, 《4.57 》 
WT NO FOCT ,R00 EF) 1， ( 4.58 > 

《3) 当局 一时， 有 
ol(SHesOe, F/OCS, nr,0o, FI—> 1 (4.59) 
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OTH OFC NG 。 ( 4.60 》 
《4)》 当 #>c 和 时 ， 丰 
HS Oo P/NNR oS, N00)) >Ke( Hf 在 ， 
{414.61 》 
ur TR OIACNANROT NG RAD) AE, 
(4.:62) 
胃 Ks( 下 ) 和 站 zl( 古 ) 不 同 为 0 和 不 同 为 ce 。 
在 这 些 条 件 之 下 ， 注 意 到 检验 95, 和 了 nw, 的 否定 域 分 别 为 
《9 人 Co 及 7 人 do ， 册 定义 4.3 的 (1) 得 
站 
和 es ,Hs Gos ) ”ga(T,n,00,8) 


=$"1(1—&), ( 4:63) 
: 测 册 定义 4"3 的 (2) 得 
jms HS ,Ks PF) ;man — HT ,ns Os F) 
= (1—p), C4.64) 


由 《4*59),(4:60) 知 ，《4:64 ) 中 两 个 极限 号 下 的 表达 臣 中 的 分 
母 ， 分别 可 以 用 oC6S,144,86y 丰 和 0 了 ,Nn 和 ,00 让) 代 蔡 。 代 蔡 后 
.的 式 子 与 (4:63 ) 相 减 ， 得 

i HOS ,nes Bes FY—HS ,nes0o, F) 


Pa 和. 五) 
i HOT 3794 天) 一 HT ,Hr,00, FP) 
= oT m0 ES 了 


将 极限 妨 下 表达 式 的 分 子 用 中 值 定理 ， 两 边 相 除 ， 利 用 (4:57)，、 
《 4.58)、( 4*61) 和 (4.62), 邑 得 


lim (Vi Ks (F) /VWiKr(F))=1, 
.因此 
limn;/rm = KSCE)/ KI(F) (=ARE(S,T; F)). (4.65) 
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《4.65 ) 有 过 不 依赖 于 a.8、 及 {894}。 因 而 道 合 定义 4*3 的 条 
件 ， 这 样 便 证 出 了 下 而 的 定理 。 

定理 4.11 在 前 述 庄 条 件 下 ， 两 检验 S， 了 的 渐 近 相对 效 . 
率 存 在 、 旦 用 《4.65)、(4.61 ) 及 (4.62) 决定 ， 

以 上 讨 到 的 ARE 的 定义 及 计算 公式 ， 不 止 适用 于 秩 检 验 . 在 - 
每 一 具体 实例 中 ， 都 过 要 验证 上 面 一 大 堆 条 件 成 立 。 就 我 们 接触 
过 的 几 种 统计 旦 (次 序 统 计量 ， 书 统计 量 ， 秩 统计 量 ) 而 言 ， 我 
们 都 曾 证 明 或 提 到 过 其 诡 近 正 态 定理 。 故 从 原则 上 上 说， 我 但 己 掌 
担 是 够 的 和 前 捉 去 验证 这 些 条 件 ， 电 这 往往 牵涉 到 无 其 统计 意义 的 
繁琐 细 和 节 。 因 此 在 下 面 讨论 例子 时 ， 我 们 将 不 去 严格 地 逐一 地 验 、 
证 所 有 的 条 件 。 

从 公式 (4.65) 和 看 出 ，S 对 工 的 ARE 为 两 个 因子 之 比 ， 其 
一 只 与 S$ 有 关 ， 男 一 只 与 有关 ,内 此 ， 可 以 把 K2 (六 ) 称 为 检验 
S 的 效率 因子 。 

上 面 只 讨论 了 单 侧 假 设 的 悄 沉 、 双 创 假 设 芍 情况， 连同 其 琴 
出 的 公式 ， 都 与 此 类 和 似 ， 

例 4.6 并，…, 半 ,为 抽 自 (x 一 8) 的 简单 样本 ， 太 (x) 关 于 
0 对 称 , 且 有 密度 函数 六 *) .要 检验 假设 ，0<0 .考虑 三 个 检验 .其 
一 是 通常 的 上 检验 ,其 统计 量 为 T 一 六 至 /sn 总。 为 样本 均值 


多 一 740)， 以 及 Wilcoxon 符号 秩 和 检验 环 + 其 统计 重演 : 
WW+ 一 之 多 有 Rh 后 二 者 在 84':I 五 段 中 已 讨论 过 ， 

为 计算 这 些 检验 之 问 的 ARE, 只 须 算出 各 和 月 的 效率 因子 。 按 . 
公式 (4.61)， 这 需要 决定 每 个 统计 量 的 渐 近 诺 态 形式 中 的 函数 
4 和 =。 

先 考 虑 上 检验 . 假定 分 布 夏 的 方差 如 存在 有 限 ， 则 易 见 可 取 . 

Et DR) 一 DO， oH,0,F)=1, C414.65 } 
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事实 上 ， 有 

NN Tn /Sn— VNRO/5 = N(R 0 /6— NN (5,— 
6)/(8n5), 《4.67 了 
由 于 8 各 分 别 是 总 体 分 布 FCX 一 0) 的 数学 期 望 和 方差 ,由 中 心 
极限 定理 筑 , 上 式 在 边 第 一 项 依 分 布 鸡 误 于 N (0,L)。 衬 于 第 二 项 ,. 
注意 到 s* 依 概 率 收 敏 于 5， 即 知 该 项 依 概 率 收 化 于 0. 这 说 明 当 
2 一 co 时 ， 上 式 左边 依 分 布 收 黎 于 六 (0,1)， 从 而 证 实 了 (4'66 》 
中 取 法 的 可 行 性 。 

其 次 考虑 BB .注意 到 名,… ,为 i 志 ,, 其 数学 期 望 为 
EY ,=P(X>0)=1— P(X.<0)=1— F(x—0)|s0=1- FF(-0) 
一 了 (98)。 小 后 一 步 用 到 下 (%) 关 于 0 对称。 又 罗 , 的 方 基 为 (0) 
(一 了 (68))， 当 8 一 0 时 有 有 家 上限 1/4。 因此 上 由 中 心 极 限定 理 知 ， 
可 了 到 

uBRNG FI=nF0, o (BbB,n,0,F)= SMA 


《 注意， 条 件 (4.53) 一 (4.56) 只 要 求 《 就 本 例 而 言 )， 涤 近 
正 态 性 在 90=0 及 60->0 时 成 立 ， 并 非 要 求 固定 的 6 时 成 立 。 因 
此 ， 本 来 按 中 心 极 限定 理 ， 应 到 6 (B, nx, 9,F) 二 (nF(0)(1 一 - 
Z60))! 人 ,但 由 于 此 式 在 0=0 或 9 一 0 时 有 极限 

CHR/ 4) = MN， 


故 真 接 取 oa(B,n,9, PF) 一 NX， 这 种 到 法 使 推导 有 所 简化 ). 


最 后 考虑 剑 * .这 个 情况 比较 费 周折 。 因为， 定理 4-10 只 处 理 
了 在 原 假设 下 线性 符号 秩 统计 是 的 极限 问题 ， 而 此 处 要 求 的 比 这 
多 。 幸好， 统计 基 厂 ; 与 以 统计 重 有 一 个 简单 联系 ， 引 进 核 函 数 


RN Ko) = (Xt Xs > 0), ~ (4.68) 
并 以 刀 。 记 以 此 为 核 的 基于 样本 生 :… 到， 的 口 统计 量 ， 则 有 

+ pp Li 

W#=B, 1+ (2 0% (4.69 ) 
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事实 上 ， 按 C 的 定义 ， 知 

(OD, = el K+ Ks>0), (4.70) 
我 们 把 右边 和 号 下 所 有 为 1 的 项 分 戌 4 类 C,,…,Cs. 其 中 类 C; 包 
含 一 切 这 样 的 项 ， 攻 ,>>0， 且 | 玉 ;| 达 六 ，(《 由 于 分 布 连续 ， 可 设 
j 气 ,| ,…,| 壮 。| 互 不 相同 ) .不 难 见 到 ， (4,70 ) 和 号 下 每 个 为 1 的 
项 ， 必 归 入 C4,…,C 中 之 一 类 且 仅 一 类 .于 是 () [7 等 于 各 类 中 
包含 之 项 之 和 , 按 符号 秩 的 定义 ，C; 类 中 之 项 恰 为 YR+ 一 .于 


是 

(2) Us = SRI-Y BY, Rt ~ Sv,—Wt—B,, 

=1 =1 $=1 

这 证 明了 (4:69) 。 

对 Us 可 使 用 极限 定理 3:1, 为 此 要 上 先 算 出 "3?(00), 它 是 
hi( 闵 ,) 的 方差 ， 其 中 

hx) = EhCx, KX) P(x+R 0 — PX, -*) 

=1— P(X,<-Xx)—1— F(-x—0)--F(x+0), 

如 前 ， 最 后 一 步 肝 了 F(x) 关 于 0 对 称 的 性 质 . 有 

OO) = Var (FOX +0)=| FiCxt0) f(x-0) dz 


-| FOrtO fr—0dx) 


= 六 FiCxt 20) fx) ax 一 ‘| F(x+20D fF Cr) dr) 


C4.71) 
.又 Uh, 的 期 望 为 
C4:72) 
此 式 可 通过 人 先 计 算 条件 概 率 
P(XI+X>0Xi=x)= PX,>-7)= F(t+0), 
然后 用 
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POXItA DEEPX rE oN)} = BCXTO)) 
=| F(x+0)/(x-0)20 


-|- F(xt20)f Cr) dx 


而 得 到 , 据 ( 4.71),( 4'72)， 再 注意 到 此 处 相当 于 (3:18) 式 中 


HIV ,nn0, FF): 四 局 F(xt+20) F(x) dx CT 


ot ye | F(x+20)f (x)dx 
A 了 7 (2 二 人 


-人 Fx+20) f(x) dx jp, C 4.74 Y: 
则 将 有 


(2 Us uCW? ,nO F) )/o(W+,n,0, PF) NO,1). 


( 4.757. 
但 1B,| 夺 R， 亩 oCW?+ 77,90, 古 ) 为 x 的 数 刁 级 . 故 有 Bn/o (1V*， 
120 ,大 一 0 省 ?>c 因此 让 人 《474 与 (4:69 ) 得 


WRCW+t,n0,7)) /oo Wt!, n,0, F;_ Ni0,1), 


(C4.76) 
《4:76 ) 说明，(4*:73) 和 (C4*74 ) 的 取 法 可 行 
有 了 以 上 的 准备 ,就 不 难 计 算 折 洽 蚜 的 三 个 检验 的 效 举 因子 ，. 
对 上 检验 有 
Wt m0 PF) Vn/d, oft,n0, l=1, 
于 是 按 《4:61) 得 
EF)=1/0’, (4.77) 


对 符号 检验 B， 有 (Bn,0,F)=nf(0)?o(B,n,0,F)== Ss 
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于 是 


KHF):=4f*(0), (4:78 ) 
对 WV ?检验 ， 有 
Wr ,0, Hy = 2 全 fx+20) f(r)dx> 2 (1) 
(| 区 区 ji 
当 如 一 00。 又 


iim 


or0G(Y nn.8,F) = {2 (2 F(xyar (x) 
ee 


-| FxYAdT 2 
Rs 1 47 
= td = 一 二 
出 此 得 出 
EF3 on 
EK CP)=12f | fi(t) dx) ( 4:79) 
wt 一 mo 


出 《4:77 一 《4:79) ,用 公式 《4.65), 即 可 得 到 # 已 , 玫 ? 这 三 
检验 之 间 的 ARE. 现 就 几 个 重要 前 分 布 严 列 出 其 数值 如 下 ; 


分 布 F | 窗 | ARECW+,t,F) 2 ARE(B,t,F) 
正 态 | et22 fv oR 2 3/F 
均匀 RC-1, 1) | IC1<x<D) 1 ls 
Logistic ex (1t+e-*)2 | n23/9 | 72 /12 
重 指 数 | 3e- 1) 3/2 | 2 
1 


通过 对 这 几 个 上 典型 分 布 的 计算 看 出 ，Wilcoxon 符号 秩 和 检 
验 与 传统 的 验 比 ,相当 的 优势 在 这 里 计算 的 几 个 值 中 ,有 
志 个 大 于 或 等 于 1 .只 有 在 正 态 分 布 〈( + 检验 是 专门 针对 这 一 场合 
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的 ) 下 ， 进 值 略 小 于 1 但 很 接近 1 。 因 比 ， 玫 + 检验 由 于 其 在 原 假 - 
设 下 的 分 布 无 关 性 ， 保 证 了 它 不 致 因 模型 偏离 正 态 而 狐 大 铅 误 ， 
其 代价 只 是 在 模型 真 为 正 态 时 ， 效 率 略 为 降低 。 即 使 才 面 二 看 来 
很 粗糙 的 符号 检验 ， 其 与 1 检验 的 对 比 也 是 有 好 有 坏 。 这些 结 果 
使 我 们 对 非 参 数 方 法 的 性 能 具有 信心 。 下面 的 结果 更 增强 了 交 一 
点 ; 对 任何 具有 密 府 了 与 有 限 方 差 的 对 称 分 布 ， 总 有 
AREW?,t,F)SN,864, (C 4:80) 
换 名 话说， 使 用 全 1 与 1 对比 ， 在 效率 上 的 损失 不 会 超过 13.6%， 
为 证 (4:86), 不 妨 假 定 五 的 方差 为 1 . 因 若 天 的 方 葵 为 5, 则 天 (2) 
的 方差 为 .对 分 布 (6X) 而 言 ，K2E(CG6x))=082F(X))， 
Ki (FIOx)) = 60° KS (FX). WK ARE (OW,t,F C6xX))=ARE 
(Wt+t,FCX)) ,因此 我 们 可 用 六 (6x) 代 欧 F(X) 去 讨论 ， 而 转化 为 
方 准 1 的 情况 。 
招 据 《4.77 》 和 《C479) ,为 证 《C480), 要 在 
fxXE0, fC-X) := f(xX), | Areax=b | i fCXIAX=1 


《1.81 ) 
的 条 件 上 下 ， 去 证 削 
12(| FXYIAX) S00,864 CC 4:82 ) 
为 此 ， 涉 
PV 
5 
以 及 
f1(X)=— = (5—X),— LXLoo, 
20 5 


{frax = (YX) 十 上 Cf xX)— fx)) dx 


+2| fof) fo dx C4i84Y 
由 《4.81 ) 知 
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上 FXIF XIAX - 3 — (51)= 3 


20~/5 5M/5 
. -| /Ca C4:85) 
四 洋 记 (Xx) 一 了 1(X) 及 f(x) 在 爹 直线 虐 非 钢 ， 有 
es — F(X f(Ar20, 《4.86》 


中 C485) 及 C4.86) 推 出 | FD fOr 0 ， 
这 枉 6 人 4 84) 结合 ， 负 知 


国 fxXYdrY 和 (TD)GX 一 3 sy 
] 0 
ss 和 5A/5 


~ 2 19 (3 V108_ 
因此 12(| 7 (Cx)dx’) >12 Ce 一 了 5 一 0.864。 
收 (4-82 ) 对 任何 注 足 《4:81) 的 都 成 立 , 从 而 证 明了 (C480)。 
例 4.7 设 和 ,区 和 了 ,Yn 分 别 是 招 月 分 布 FX) 与 
-P(x 一 9) 的 入 单 样本 ， 为 检验 假设 8 志 0， 考 虚 两 个 检验 法 ， 其 一 
沁 济 常 的 两 样本 t 检验 ， 共 统 斗 量 为 


了 ,一 NL gre 
-此 处 zs=-72: 十 了 2 艺 s 利 素 。， 分 别 是 下 样本 与 乱 样 本 的 样本 均值， 


而 吕 ny 一 二 . 另 一 个 


i=1 14=1 
是 Wilcoxon 秩 和 检验 玉 ， 其 统计 量 为 
W,= Rt 
此 处 瑟 , 为 了 ,在 合 样 本 中 的 秩 .以 下 我 们 假定 分 布 斑 有 密度 ， 且 
.了 有 有 有限 的 方差 67。 
与 一 样本 情况 类 似 ， 对 t 粒 验 可 取 
LL,0,F) =V -0/6 of ng PF)=1l, (C4.87) 


'` 它 就 能 满足 条 件 《4.53 ) 及 ( 4.55)。 
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对 你 答 验 而 言 ， 通 过 例 3'3， 可 知 ( 见 (3.10 ) 式 》 
W, = BH 1) + AU ning 


其 中 Uwins 是 以 《3.8 ) 为 核 的 吕 统 计量 .就 这 一 部 分 而 言 ,可 用 定 
理 3.2 ,与 例 4.6 类 似 的 算法 ， 算 出 


oo = | GF(x~0)) dF (x) 
-( | 4-Fez-opaFtz) 
co | Fe+odFCD 一 (| FGzrodFCnD)?。 
又 EUwos = | (x+0)4F(x). 因 此 ， 由 定理 32 知 ， 若 取 


HOW ,nF ,0) = 9 (7 + 1) 4 Hm, | F(x+OdF Cx) 


C4:88 ) 

o (W ,nn,F ,0)= NM NNNn/l2s (C4:89) 
且 设 

lim zy 一 和， 0<AZ1, 《4-90 ) 


则 知 当 6,-~>0 时 ， 有 


WauW ,ns E00)] /oe Wn F,0) NO,1). 
这 说 明 对 爷 捡 验 ，( 4.88 》 和 《4.89 ) 的 选择 正确 . 据 ( 4'87) 一 - 
《 4:89)。 生 在 《4.90 ) 的 假定 下 ,就 不 难 算出 这 两 个 检验 的 效率 
因子 分 别 为 
KF)=4(1—4)/6°, (C4.91) 
K2(F)=124(1—1)( | f(x) Ax)’, (4.92 ) 
由 《4.91 ) 和 《4'92), 每 


ARECW,t; F)=125*( | rzCX)GX 2。 《4.93 ) 


*147 。 


值得 注意 芍 是 此 值 与 14 元 关 ，、， 上 且 答 村 ARECW? ,ft; 下)( 当然 后 一 
恒 要 求 关 于 0 对 称 ) .理论 上 可 以 证 助 ， 这 不 是 一 个 巧合 。 既 然 
和 ARECOW ,tft 五 ) 符 于 AREOV?,t; 古 ) ,在 前 例 中 关于 Wt+ 和 的 对 
比 情况 所 说 的 一 切 ,可 一 字 不 改 地 移 到 此 处 ,特别 ，(4.98 ) 右边 
的 最 小 值 为 0.864 。 

注意 在 以 上 两 例 中 ， 在 验证 定理 4.11 的 条 竺 时 ， 有 些 细 节 被 
也 咯 了 。 比 方 说 ,在 例 4.7 中 为 计算 WW,m,98:), 我 们 是 把 


| _F(x+8)dF (x) 在 积分 号 下 对 6 求 导 得 | ”F(x+9)dF (4) 


=| fx+0) fa 而 这 需要 细致 的 分 析 论 证 。 如 果 我 们 不 


计较 这 些 细节 ， 那 么 关于 一 般 的 两 样本 秩 检验 也 不 难 算出 其 效率 
因子 ， 结 果 如 下 ， 设 检验 工 在 样本 大 小 为 1 实际 上 ,==411, + 


为 合 样本 大 小 ) 时 的 统计 量 选 为 L,= a(Ro), 其 中 cnki 一 9 


定理 


4 党 明 ) ， 则 将 有 


记忆 二 生生 上 OPO Fm A | pd 
-| p(x)dx)’). C 4.94) 
-这 里 设 lim hi/7 存 在 且 笑 于 ， 又 下 有 密度 f, 由 表达 式 ( 4.94) 


己见 ， 我 们 忆 恨 定 了 存在。 这 公式 从 形式 推导 上 说 易于 从 定理 
4'7 推 出 《建议 读者 自己 作 一 0 ， 但 涉及 定理 4*11 中 条 件 的 仔 
细 验 证 ， 则 有 不 少 繁琐 的 工作 要 做 。 

还 可 以 证 明 :; 洛 计 分 函数 用 a52) 一 ECUrs) 去 定义 ， 其 中 
Un 和 …Unn 是 从 (0,1) 均 名 分 布 中 抽 得 的 次 序 样 本 ， 则 由 之 
所 确定 的 检验 的 效率 因子 也 是 《4.94)。 

例 4-8 对 Fisher-Yates 和 检验 和 Van der waerden 检验 ， 有 ， 
二 多 1, 多"! 是 NC0,1) 的 分 布 中 的 反 疯 数 , 记 g(x)=e 72AA 378 


“1T48。 


则 有 2’ (w=(g (B10)) 1 区 


1 外 | 
| .ecoax 5 | XG(EJCXs 103 


1 oo 
| (udu= | Xig{ Xdr=: 1, 
站 tr 


于 是 出 《4.94 ) 得 到 


由 二 。 四 jim f(x) 乞 
Ky(F)=Kiy(F)=A(1 2) (| gD P(X) dx ) 


(C41.95) 


和 特别， 当下 为 正 态 分 布 N(&4,6”) 时 ， 算 出 

HIF KEyCF)=A(1— 4)/6’, 《4-96 》 
则 此 式 与 (4.91) , 即 得 

ARECV :iiE 态 ) 一 ARECFY ti, 正 态 )=-1.。(4.97》 
有 即 从 大 样本 骨 庶 看 ，Fisher-Yates 和 Van der Waerden 检 验 与 t 
检验 在 总 体 为 正 态 时 ,有 视 同 的 效率 ,但 后 潜 不 具备 “分 布 无关 ?” 
欧 优 点 ， 因 去 可 以 谱 ， 在 样本 大 小 较 大 时 ， 用 FY 利 玉 检验 比 用 

t 检验 下 合理， 更 进一步 ， 可 以 证 硝 在 瑟 的 方差 为 1 的 限制 下 


pad” (Xx) . 
nt | TBI 一 1 S00 


且 最 小 值 在 为 正 态 时 达到 .所以 ， 从 大 样本 观点 看 , FY 和 V 检 
验 在 任何 情况 下 都 不 劣 于 + 检验 ， 

公式 (1494 ) 可 用 于 解决 下 述 有 实际 意义 的 问题 ， 针 对 一 特 
定 的 分 布 (其 密度 了 存在 ) ， 找 一 个 秩 窒 验 ， 其 在 分 布 环 处 的 
效率 因子 比 任何 其 他 秩 检 验 在 玉 处 的 效率 因子 都 大 。 据 (4.94 ) 
可 以 证 明 , 它 就 是 以 cs 人 及 一 gr( 一 二 一) 《或 as 让 =EC9s(Us)) 


也 可 以 ) 为 计 分 函数 所 确定 的 秩 答 验 ， 此 处 


Pu) = Pu) /FF ID))。 (4.99) 
有 了 这 个 公式 ， 我 们 可 按照 所 设想 的 最 可 能 的 总 体 分 布 矿 去 选 摊 


效率 因子 芭 高 的 秩 检验 。 这 公式 的 成 立 当然 有 一 些 条 件 ， 至 少 从 


149 。 


《 4'99 ) 看 到 ， 这 些 条 件 包 括 ， 玉 有 和 密度， 且 了 的 导数 存在 > 
又 分 布下 严格 增加 《这 等 于 要 求 了 在 ( -ce，co ) 好 处 大 于 0), 基 
人 春玉! 存在 .例如 ， 当 下 为 正 态 时 ， 由 《4.99 ) 可 算出 ge 一 
gi1(U)， 这 相应 于 Fisher- Yates 或 Van der Waerden 检 了 验 . 

关于 对 称 中 心 的 检验 问题 ， 也 可 得 到 类 似 的 一 般 绪 时 ， 其 严 
格 理论 比 两 样本 问题 还 要 复杂 ， 这 里 只 引述 其 结 


设 我 们 用 线性 符号 秩 统计 是 LY 一 已 V9 (一 全) 去 检验 


总 体 分 布 F(x 一 8 ) 中 的 9=0， 此 处 F(X) 关于 0 对 称 , 定 义 
GoW = PT (TE D/P ), 0<u<l 


此 处 了 二 '. 则 这 个 检验 L* 的 效率 因子 为 


KFK2,(F) {fr gr)9p madu)"/ J :cnau, (4.100) 


对 Wilcoxon 符 号 秩 和 和 检验 ,有 8(2) 二 (U4 十 1)w， 读 者 不 难 据 (4* 
100 ) 算出 其 效 容 轩 和子 如 (4'79)， 

另外 ， 在 人 鲍 4.7 中 我 们 曾 指 出 ，Wilcoxon 一 、 二 样本 兴 验 的 
效率 因子 只 相差 一 个 常数 因 了 2(1 一 4) ,而 这 不 是 贷 然 的 巧合 ， 事 . 
实 上 ， 在 一 定 的 条 件 下 可 以 证 明 下 面 的 结果 ， 若 关于 同一 分 布 夏 
的 一 、 一 样本 秩 俭 验 工 和 上 * 都 出 同一 个 决定 ， 且 在 两 样本 问题 
中 有 /n>4， 则 

ECP)=A(1— A KF)., 

三 、 局 部 最 优 牧 检 验 

上 一 段 所 讨论 的 准则 一 -一 渐 近 相对 效率 ， 是 大 样本 性 质 的 ， 
本 段 将 引进 另 一 个 判断 检验 的 优良 性 的 准则 -一 局 部 最 优 性 。 它 
是 小 样本 性 质 的 

设 我 们 有 了 样本 1，…, 恤 , 而 要 检验 某 个 原 假设 互 , 当 二 成立 
时 总 体 分 布展 于 一 定 的 分 布 族 缮 。 对 站 假设 一 般 也 是 一 全 很 大 航 
分 布 族 ， 我 们 从 其 中 挑 出 一 个 可 由 一 实 参 数 9 去 刻 划 的 子 族 《如 
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得 两 样本 问题 中 ， 当 原 假设 不 成 立时 总 体 分 布 可 表 为 ( 严 ,G)， 其 
中 环 于 加 -考虑 子 族 {( 开 (xz)， 开 (一 9)):0320j， 其 中 殖 已 知 。 当 
=0 时 属于 原 假设 ,而 2>>0 时 属 对 立 假设 ) . 设 6 二 9 时 属 原 假 
设 ,而 9>> 加 时 属 对 立 假 设 。 我 们 希望 找到 一 个 水 平 4 的 秩 检 验 ,其 
在 4168>b} 这 部 分 对 立 假设 上 一 黎 最 优 .这 种 检验 一 般 不 在 在 、 于 
是 我 们 退 而 求 其 次 ， 找 这 样 一 个 水 平 a 的 秩 检 验 , 使 它 对 某 个 
8>>0, 在 {如 之 8 之 名 十 } 这 个 局 部 上 达到 最 优 , 如 这 种 秩 检验 存在 ， 
则 它 可 称 为 “局 部 一 致 最 优 ” 的 .可 措 的 是 ， 即 使 这 种 检验 也 往 
往 不 存在 ， 如 是 我 们 再 退 一 步 ， 不 要 求 e 国 定 ， 而 上 只 要 求 在 一 个 
“无 限 小 ”的 区 闻 内 达到 县 优 。 这 个 考虑 引 叶 到 下 述 局 部 最 优 秩 

定义 4:4 以 .ya 记 原 假设 态 的 所 有 真实 水 平 a 秩 检验 之 集 。 对 
任何 SE€ .9s ,以 Bst8)(9 守 00) 为 其 在 对 了 并 假设 {106<<0,} 上 的 功效 函 
数 . 设 SuE age. 若 对 任何 SG.szs 都 有 ps(go)< 生 ba(g)， 则 称 S, 是 
如 的 针对 所 述 对 立 假设 的 水 平 a 秀 品 部 玻 优 秩 检 验 ( Local Most 
Powerful Rank Test， 简 记 为 LMPRT )， 

这 个 定义 的 会 义 不 难 从 上 面 的 说 明 得 到 理解 , 先 设想 84(0,》 
<pP’s,(00). 由 于 a 是 真实 水 平 ， 有 ps(06)== psa (00) 二 (注意 9 一 
9o 届 于 原 假 设 ). 故 由 B'sC00) 之 B7so(90) 知 , 当 9 汪 0 但 0 一 0, 充 分 小 
时 有 8s(9)< 之 Bs,(98) 。 这 正 是 上 述 关于 局 部 最 优 的 要 求 , 若 B's(00) 
一 subo)， 则 8so(@) 可 能 小 于 6s(9), 益 Bs(9) 一 8so(0) 也 只 能 是 
如 一 6 的 高 级 无 穷 小 量 ， 即 在 2 的 很 小 的 邻 域 内 当 比 较 功 效 的 线 
性 主 部 时 ，S 仍 不 优 于 S,。 

下 面 我 们 来 求 两 样本 问题 的 LMPRT， 对 立 假 设 子 族 选 为 
CPCX)，F(X 一 9)):9>>0} .有 以 下 的 结果 。 

定理 4.12 以 ci 和 … 扫 细 记 抽 自 分 布 严 (xz) 的 大 小 为 号 的 次 
序 样本 ， 则 相对 于 上 述 对 立 假设 子 族 而 言 ，LMPRT 是 由 下 述 计 
分 函数 确定 的 秩 检 验 ; 

datD=— EC AED/ FEED 了 一 1 C4-101) 
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此 处 二 一 天 

为 证 本 定理 ， 需 变 下 面 的 引进， 

引 理 4:1 设 关 ),… Xs, 和 六,… ,ws 分 别 是 从 密度 ff 和 9 中 
招 所 后 简 音 样 本 , 厂 为 一 分 和 0 记 ( 王 1， 
A 光 
Pe en ee 
7n) 有 


PAR=7)=— EN FF TI gv HAV))}, 
1 $=1 4=71+1 t=] 


C4.102) 
此 处 六 受 二 是 也 帘 度 及 中 捆 出 的 、 大 小 为 的 次 序 样本 。 
证 对 以 如 记 允 维 欧 开 空 间 的 子 集 
B={(01 Vn) Un} 
风 有 
PlR=r) = | nD ln) ni 9 (ur dv ad, 
fl tf-ni1+1 


1 HH fdr) TD glvr,) 
= 二 -| 2 al Rn hy dv do 
#1 至 nn =1 
IE kh(v,) 
和 一 并 


《4.103 》 
但 据 《 2.]1)， CV Vn ) 的 密度 ， 在 互 上 上 为 经 ! 下 hv) Ea 


而 在 忆 外 则 为 0, 故 上 式 可 写 为 ( 4"102) ,证 毕 ， 

现 转 到 定理 4.12 的 证 明 . 任 何 一 个 秩 检 验 ， 等 价 于 (1, 2,…。 
2 ) 的 一 切 可 能 的 置换 《 共 441 个 ) 之 集 的 一 个 子 集 ]。 意思 是 ， 
当 坟 仅 当 秩 统计 量 民 的 取 秆 + 落 在 J 内 时 ， 才 否定 原 假 设 。 把 这 
个 秩 检验 也 记 为 了 六 的 功效 为 


= LE HH Cu-0 , 
B10) es i El\, 4 一 了 iT (Er)》 ) C4 104 》 


此 式 是 由 在 《4.103) 中 天 g (XY)== 7 一 9) 及 产 一 大 (这 就 要 求 
处 处 大 于 0) 得 六 的 。 易 见 


BC) = > > EC f(r /7 (Er)). (4°105) 


了 i=n1Tf 


由 (4-105 ) 署 出 :为 使 Bj (896) 最 大 ， 应 把 那些 使 表达 式 
EE/ 


尽 可 能 大 的 置换 7? 收 到 得 定 域 了 中 去 ,这 就 证 明了 本 定理 。 

如 用 《0,1) 均 匀 分 布 的 次 序 梯 本 Uw 志 … 过 Umw， 可 将 (4: 
101 》 时 为 

GD=— EFA EU ))., 
寻 与 (4.99 ) 对照 可 知 ， 针 对 五 为 LMPRT 的 牧 检 验 ， 也 是 在 玉 

有 域 大 小 率 因 子 的 秩 检 验 , 初 一 看 这 似 属 巧合 ， 实 则 不 然 。 因 

为 归根 到 底 ， 二 者 都 是 基于 在 原 假 设 点 2 近 旁 处 功效 值 , 大 者 为 
优 ， en 定理 4.12 a 闪 险 ， 与 由 计 分 
函数 as(z) 一 一 产 (TI 7 CE 二 力 洪 定 的 秩 检 验 


无 高低 之 分 别 ， 在 此 旭 不 然 ， 局 部 了 最 优 黎 检验 只 有 一 个 ， 即 定理 
4.12 措 决定 者 ， 共 他 都 不 是 。 这 样 ， 在 玉 为 正 态 分 布 时 ， 按 “局 
部 最 入 ”这 个 浴 则 ， 称 可 以 说 Fisher-Yates 检验 优 于 Van der 
Waerden 淮 验 。 

对 一 样本 问题 ， 也 有 类 似 的 结果 ， 和 但 论证 更 为 复杂 ， 此 处 不 
细 述 了 。 


34.3 多 样本 问题 与 随机 区 组 秩 检 验 


本 节 的 内 容 是 讲述 秩 方 法 在 简单 的 方差 分 析 问 题 中 网 应 用 。 
一 、 多 样本 问题 
多 样本 问题 是 商 样 本 问题 的 直接 挂 广 ， 设 有 环 个 一 维 总 体 。 
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其 分 布 分 别 沁 为 Fi… Fn, 从 第 i 个 总 体 中 抽出 简单 样本 站 ,1 ,… 
和 in 一 1 11， 又 假定 这 一 向 十 十 Nsm 个 样本 全 体 独 立 。 
要 恢 据 这 些 样本 去 检验 俐 设 

Hi:F=PF,=...=I,, 《4.106 ) 
从 方差 分 析 芍 观点 着 ,这 ?Ww 个 总 体 可 看 成 是 一 个 因 索 的 吏 个 水 平 。 
假设 人 《4.106 ) 的 意义 是 这 ?个 水 平 无 差别 ,或 者 说 ， 该 因素 无 效 
应 。 

。 一 般 对 立 假设 的 情况 .就 是 说 ， 对 立 假 设 无 方向 性 。 当 
Se 只 简单 地 知道 请 ,,…' ,Fm 并 非 全 恒 等 ， 其 他 一 | 
知 。 

用 秩 统 计量 检验 (4:106) 的 方法 ， 可 以 由 两 样本 情况 得 到 启 
发 以 Rs 记 BD.y 在 合 祥 本 {==1,… ,Ni2 王 120} 中 的 
秩 ， 且 前 我 位 暂 假 定 分 布 五 ，…Fn 都 处 处 连续 ， 因 证 不 发 生 结 
的 问题 。 给 定 计 分 函数 4,(-)， 而 令 


fm aC RY, Sni—= Lni—tns) /On 2—=1,.,H1, 
j=1 
( 4:107) 
此 处 各, 和 58 分别 是 Ls 在 召 成 立时 的 数学 期 望 与 方差 。 按 公 
式 C4:3) 和 和 (4-4)， 有 


Hi = Midns 和 一 J 《4-108 》 


此 处 ,一 仿 Qn(i) /1 和 1 = 他 一 和 2; 万 ,一 六 (Qs(2) — 21) 2 
= $=1 


按 C4.:108)， 浊 了 瑟 成 站 ， 则 Ls /Nss 1=1,. ,IN 都 有 相同 
药 期 望 ， 因 此 (Losf/1, 一 6)? 应 倾向 于 小 . 故 把 这 些 表 达 式 作 加 
权 和 ( 按 各 样本 大 小 2 … ,nm 加 权 )， 并 加 以 规则 化 ， 得 统计 


到 | jw] — dan), (C4.:109) 


2 
| 
| 总 
全 
‘Ms 


它 作 为 衡量 样本 4 与 假设 豆 的 信 离 程度 的 一 种 指标 ,7 您 大 ， 
偏离 分 显著 。 因此 一 个 合理 的 检验 是 ， 当 
To>C 《4.110 ) 
时 和 否定 原 假 设 豆 .C 根据 了, 在 五 下 的 分 布 ， 及 给 定 的 a 定 出 。 
当 2 ,hm 都 较 小 时 ， 直 接 求 ZT 的 精确 分 布 《 在 玉成 立 
下 3 尚 属 可 行 , 如 x 较 大 ， 则 只 好 诉 诸 极 限 分 布 。 往 下 我 们 来 证 
明 ， 加 果 {(24《1),… ,Qa《2)) :4 二 1,2,…} 满 足 定理 4.4 或 4:5 中 
的 条 件 ， 面 昌 当 如 ->ce 时 
2 一 -Di>0 存 在 ，1 一 1，… 坟 ， (4:111 ) 
则 当 2 一 co 时 ， 在 百盛 立 之 下 ， 有 有 
ER 《4-112 》 
这 里 娩 -, 是 自由 度 玉 一 1 的 中 心 X? 分 布 。 
为 证 此 要 用 到 定理 4'6. 据 该 定理 5 在 百 成 立时 ， 下 同 ) ,在 此 
处 所 设 条 件 下 有 
Ss= (CLn, —H /On (Ls 9 7 一 上 Hm) /On m1) 
NC0,N) ( 4°113 > 
也 处 4 一 (9) 为 班 一 1 阶 方 隆 ，4is 据 定理 4.6 中 的 表达 式 ( 注 
意 此 处 CE,… C55) 是 C05,03030505: 05315 s13050; -50 
…,0): 一 共识 段 ， 只 第 上 上 段 有 1 个 1， 其 余 全 为 0) 及 (4.111 > 
场 算得 为 
464 一 1y 45= — (pp (1—p) (1— p10) it, 了 一 1y 
‘97. {4.114) 
现在 要 利用 概 兴 论 中 的 一 个 定理 ， 设 6 服从 2 维 正 态 分 布 
N00,4A)， 基 中 矩阵 4 非 异 ， 则 所 服从 自由 度 为 如 的 让 
分 布 名 ,由 这 个 定理 及 (4.113 )， 得 知 当 4 垃 co 时 有 
Se (4.115 ? 
直接 计算 易 证 明 ， 
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-1 一 六 | 


A = 0 a tad’ /pns 
\ 1 — pm-; | 


共 中 d= piltl—p), "oN pn-i(l™~ pm-1) ) .以 这 个 4 伐 


入 (4.115) 的 左边 ， 计 算 其 表达 式 ， 但 是 把 4! 中 的 p; 改 成 
/NN。 由 于 317 一 一 Di 这 一 修改 将 不 影响 (41157 的 成 芯 。 
得 到 的 表达 式 是 ( 据 《4-107)，(C4.1087)， 


| zy2 NC 一 1 nl , 
3 万 7 CLanet I Un) + nm 上 (a ian) | . (4 116) 


从 荆 n4 的 定义 ( 见 (4:107)) 可 知 Ds anlt) 一 ?Cn， 因此 


DC a Wmin)。 因 此 (4-116 ) 就 是 ( 4.109》 

济 定义 的 7 于 是 证 肌 了 (4.112)。 

根据 这 个 结果 ， 当 52 较 大 时 ，〈4:110 ) 中 的 C 可 近似 地 
取 为 如 -ta 此 处 & 为 给 定 的 检验 水 平 ， 而 站 -1.(8) 为 如 -的 
100(1 一 0) 史 分 位 点 。 

说 4-9 检验 (4.110) 的 一 个 重要 特例 是 Cs( 切 一 。 记 产 
生 了 的 检 验 呀 Kruska[l-Wallis CKKW ) 检验 ， 是 他 们 两 人 在 1952 年 
提出 的 。 这 相当 于 两 样本 中 的 Wilcexon 挫 验 ， 其 统计 量 为 


个 12 六 -41 2 
了 ,一 ET )?, ,= SR /ns 


C4:117 ) 
六 ;由 第 了 组 样本 X's X in, 在 合群 本 中 之 秩 之 平均 。 在 多 样本 
三 题 中 , 与 t 验 相 省 的 检验 是 已 徐 验 人 


sD T Sr (这 , 一 /> 之 SX 一 到 ,2 ， 


(4.118) 
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这 里 显 ,= 立 Xw/zxs， 是 第 ， 组 样本 的 平均 值 ,在 忆 iy… ,Fn 为 租 


同 的 正 态 分布 时 ，. 多 。 服从 自由 度 为 同一 1 及 2 一 说 的 下 分 布 
ye 因此 茶 于 此 统计 量 的 、 水 平 的 检验 的 否定 城 是 

多 > oa) 。 
从 渐 近 相对 效率 的 一 般 定 义 出 发 ， 可 算出 在 位 置 参 数 型 的 对 立 假 
设 下 《 即 形 如 玉 :(X)= 二 玉 (% 一 060), t= 二 1 向 的 对 立 假设 ,其 中 
91,… gm 不 全 相同 ) ， 由 《4.110 ) 确定 的 秩 检 验 卫 对 下 检验 的 
ARE, 有 趣 的 是， 计算 结果 与 两 样本 情况 完全 相同 ， 例 如 


ARE(KW, P120(| f° Crdx) 


此 处 二， 而 0” 为 分 布下 的 方差 。 因此， 在 84*2 中 讲 到 过 
移 有 关 秩 检验 与 + 检验 的 对 比 的 一 切 ， 可 一 字 不 改 地 移 于 此 处 ， 

2， 结存 在 的 情况 。 当 结存 在 时 ， 要 对 由 公式 《4'109 ) 定义 
的 Zs 作 些 修改 《如 用 随机 法 定 秩 ， 不 须 作 任何 修改 。 此 处 讨论 
的 是 平均 法 ) .修改 步 又 如 下 。 

2， 把 样本 { 和 ,让 排 成 一 列 ， 友 1 站 
并 以 单 足 标记 之 ，Z1,…' Zn。 集合 代 ,2,… ,WW} 分 解 为 9 个 互 不 相 
交 的 子 集 ] 1,…,J。， 使 当 且 仅 当 z 和 ?2 都 落 在 同 一 个 J ,之 内 
村， 才 有 Zu 二 Zo. 又 车 2 EVA，7 E7/, 而 7<<s , 则 Go<Qr7。 
中 所 含 元 素 的 个 数 记 为 TraTis' Ta) 就 是 在 84.1 的 三 段 中 提 到 
过 的 结 统 计量 ， 

5b， 从 an(*) 出 发 定义 a(*) 如 下 ， 


Tt 


Gn (2) 一 3 Calf)} /Tr 


和 一 全 卫士 …… 二 和 一 了 了 
当 袜 十 司 十 -1 十 1 寺 fi ATi 十 十 Ty 
c, 在 (4'109) 的 了。 定义 中 ， 把 各 样本 原 米 的 牧 玻 成 经 修 
正 后 的 秩 ， 而 Ca (*) 改 为 Ze 《*) 《 但 也， 仍 维 持 不 政 ， 即 仍 为 


久 (es 一 am .修改 后 算出 的 T 暂 记 为 了。。 


4. 计算 
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=( 立 {QC2) —an)/ > (dl1) — an): js 
4=1 4=1 
则 可 证 : 若 记 分 范 数 cvs(') 涉 足 定 理 4.4 或 4.5 的 条 人 忻 ， 纠 
《4.111 ) 成 立 ， 则 在 原 假设 之 下 仍 有 ,Ts 必 如 1,， 因 而 以 


{之 总 -1(9)} 为 否定 域 的 检验 具有 浙 近 水 平 a， 
我 们 留 给 读者 证 明 ， 对 Kruskal- Wallis 检验 , 即 4 (站 = 1 > 


有 

BD a 4119) 
因此 ， 修 正 后 的 Kruskal- Wallis 统计 量 为 

T={1 /0)) FD (R:— 
+1), (4:120 ) 


这 里 1+ 是 从 和 在 合 样本 中 用 平均 法 修正 后 的 秩 的 和 。 
再 除 以 z,， 

下 面 再 通过 一 个 数字 例 以 解释 上 述 步 又 。 

例 4:t0 从 三 个 总 体 中 分 别 抽 出 大 小 为 5,5,7 的 样本 ， 结 果 


5,4*6,4,6# 7,3,5,6,5; 2,3,3,1,2.1,1L。 

《1) 把 合 样本 按 出 小 到 大 排列 为 

1,1,1,2,2,3,3,3,4,4,5,5,5,6,6,6，7， 
有 9 一 7( 长 为 1 的 结 也 算 上 )，(T1y…,T1)= 二 (3,2,3,2,3,3,1)。 

《2》 此 处 Ce) 一 三 .调整 后 各 样本 的 秩 分 别 是 ， 三 个 1 都 是 
2， 两 个 2 都 厦 4,5， 其 余 3,4,5,6,7 分 曾 流 7、9.5、12,15 和 17。 
由 此 算出 ，《 4.120 ) 中 的 RY 为 ，R? 一 (12 十 9,5 十 15 十 9.5 十 - 
15)/5=61/5, R:=63/5, R*=29/7, 

{3) 以 上 述 谱 及 Rr: 之 值 以 及 了 一 fi 一 5， js 一 7 种 
: 158。 


好 一 17 代 入 〔〈4*120) ,得 


。_ 1，_ 108\-! 12 本 站 
Psl(a Rs) (sx —9)*+5X( 吕 一 9)* +7 x 


29_ od 
《多 9)*) 10.7010， 


此 处 zz 一 1 二 2。 查 * 分 布 表 ， 得 总 (0.01) 一 9,210。 故 即使 在 
一 0.01 的 水 平 上 也 要 否定 各 分 布 相同 的 原 假设 。 
本 例 的 最 后 公式 (4*120 ) 比较 简单 ， 不 必 依 次 经 历 上 述 一 
般 的 步骤 4,b、c,d. 
3. 对 立 假设 有 序 的 情况 
在 有 些 情况 下 ， 根 据 问题 的 实际 背景 ， 有 理由 认为 ， 当 原 假 
设 ( 即 各 分 布 相 同 ) 不 成 立时 ， 各 总 体 变 景 的 取 值 有 党 一 方向 增长 
的 趋势 . 就 是 说 ， 若 以 天 1， 县 m 记 这 吉 个 总 体 随 机 变量 , 则 当 
斥 假设 不 成 立时 ， 有 
Xs > XK, YB Uy 《4-121 ) 
见 定义 3.3。 
前 面 构造 的 秩 检 验 〈《4,.110 ) 当然 也 可 用 于 对 付 这 种 对 立 候 
设 ， 但 检验 (4:110 ) 是 针对 “一 切 ” 对立 假设 的 ,没有 用 到 
《 4,121 ) 的 特殊 性 ， 利 用 这 种 特殊 性 ， 可 构造 出 更 窜 针 对 性 的 
检验 。 方法 如 下 ， 任 取 i 之 了， 考 虚 两 组 样本 
.ED 及 11 《4*122 》 
把 0 人 在 合 样本 (4.122 ) 中 的 秩 的 和 记 为 R,(i,7)。 因 


为 在 对 立 假设 下 当 2< 之 7 es > 基 ,， 故 这 时 Rli,j) 会 倾向 于 
更 大 ( 相对 于 原 假设 下 》， 


R (77) ey ) 。 《4*.123 } 


此 处 仍 以 4 记 知 十 … 二 zw, 据 以 上 的 分 析 ， 当 对 立 假设 (4,1217 
. 忒 立 时 ， 天 (2) 倾 向 于 大 。 由 此 提出 一 个 检验 ， 它 以 
Rn)>C C4°124) 
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为 否定 域 。 

为 要 用 大 梯 本 方法 定 C， 就 要 定 出 统计 量 G22) 在 原 假设 下 
的 极限 分 布 。 可 以 证 明 ， 共 条件 C4:111) 成 立 ， 唱 当 ?2-> co 时 ， 
有 


(RW — AV)/B, LN,1), (4.125) 
其 中 
4 一 二 Li+nyt1), 
1<t<j<m 2 
B= 《22+ 3)— Sant+ 3)}, 《4'.126 ) 


据 《4.125), 在 给 定 的 水 平 4 之 下 ， 营 4 都 较 大 【〔〈 人 124 ) 中 
的 CC 近似 地 可 取 为 
C= A,+B,ra, ( 4.127 ) 

极限 定理 《 4.125 ) 的 证 明 其 实 不 难 ， 但 此 处 不 给 出 了 《人参 
需 习 题 14) 。 

以 上 是 在 分 布 连续 的 前 提 下 讨论 的 ,如果 有 结存 在 ， 则 要 作 
一 定 的 修正 ， 步 骏 如 下 ，; 

Q. 在 C4-122) 中 把 长 大 于 1 的 结 都 找 出 来 ， 设 各 结 (长 大 
于 1 者 ) 之 长 为 各)…,tsp。 叉 在 长 为 t 的 结 内 ， 包 含 了 第 i 总 
体 的 虞 个 样本 ， 7 一 1，…,g。 把 RR(i,7) 修正 为 R#(i,7) 一 


六 入 [wcX4+ 土 中 lt 一 1y) R (44) 修正 为 R*(p) 一 


卫 _R9G7)( 在 此 顺便 指出 :此 处 所 定义 的 R*(i,j) ,就 是 在 结 


Tt4<jc< 


存在 的 情况 下 ， 两 组 样本 (4:122 ) 的 Mann-Whitney 统计 量 ， 
它 对 结 不 存在 时 的 Mann-Whitney 统计 基 ( 见 (3:10) 式 及 其 
下 文 ) 的 修改 ， 就 是 当 某 个 兴 ,。 与 基 个 环 相等 时 ， 给 以 记 分 
1/2。 它 与 在 结存 在 时 到 平均 秩 的 Wilcoxon 秩 和 统计 量 大 (让 
的 关系 为 

RGD- Re)= DIT- St ti 一 1):+ 
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#1/2， 此 处 如 加 已 给 了 了 定义， 而 人 ,一 二 十 … 十 在， 碟 一 瑟 十 十 
了 但 应 注意 ， 此 处 要 把 长 为 工 的 “ 结 ” 也 算 进 来 ， 即 刀 可 以 为 
IT. 又 请 读者 验证 ， 在 不 存在 结 时 ( 一切 绢 为 时 》。， 上 式 右边 为 
Ny (Ky 十 1)/2， 好 加 到 了 前 面 我 们 在 《310) 式 中 所 看 到 的 人 情况。 
嫉 。 再 考察 全 部 样本 
人 


找 出 其 结 统计 量 ， 记 为 (Tt1,…,T0) .把 B2 修正 为 
Br?={nn 1) (27+ 5)— Sn,—1)(2n+ 5) 


Sr, — 1)(27r 7 5)+ (36n(4— 1) 2) 
> Hi(11— 1) (1;— 2) Sr Dr —2)) 


+ Cann— 1D) DB ask 一 1) Srlr—1)), 


站 ,修正 为 A# 二 (1 一 23 一 … 一 12)/4。 
c. 在 条 件 (4'111 ) 之 下 ， 当 ?2 ->oo 时 有 


(R* (mn)— A:)/B: ,Neo,1) C 4.128 ) 
而 公式 (4'127 ) 要 用 公式 
C=AiT Be (4.129) 
去 代替 


例 4:1l 再 考虑 例 4.10 的 数据 ， 但 把 总 体 排序 改 为 ， 原 来 最 
后 的 改 为 第 一 ,原来 第 一 的 改 为 第 二 。 

2Z。 算出 尺 *(1,2) 一 35， 玉 (1 3) 一 34， 态 *(2,3) 一 14。 由 此 
得 开 " (4 ) 一 35 二 34 于 14 一 83 。 

2。 合 样本 结 统计 量 为 《3，2，3,2;3);3,1)7 2 了 ?2 一 11 二 
bn #4 二 17 ,算得 

万 ,2 = 二 417X 16X 39—1398+ (36 X17X16X15)-!1330 x 24 

十 48X17X16)-182X28} 一 127.9321， 吾 * 一 11.3107 


s T61 。 


4 一 工 (17* 一 25 一 25 一 委 ) 一 47.25 


Cc， 按 C4.129) 算 出 C=47,.25 十 11.3107X 2,5758 二 76.384 
《 此 处 取 z:=0.01，zo.oi 一 2.5758 ) 此 值 小 于 天 *(2) 一 83， 改 得 
出 与 俩 4.10 一 样 的 结论 。 若 取 a==0.001, 则 本 例 计 算 结 困 在 否定 
域 边 绿 附近 ， 面 按 例 4'10， 则 本 显示 本 方法 更 
为 六 镇 一 些 。 

二 、 完 全 随机 区 组 秩 检验 

有 人 识 个 处 理 要 在 wv 个 区 组 中 进行 比较 。 各 区 组 的 大 小 都 是 
1， 可 容纳 每 处 理 一 次 且 仅 一 次 。 区 组 内 各 试验 单元 假定 相当 均 
匀 ， 而 不 同 区 组 则 有 较 大 差异 ( 这 是 区 组 划分 成 功 的 标志 
假定 处 理 与 区 组 之 闻 并 无 交互 效应 ， 

在 传统 的 正 态 方差 分 析 中 ， 对 这 个 试验 引进 统计 异型 

X=Htait+ Byterss f=, ,Hm 7 =1l, ,Hs 
此 处 趟 ,5 为 处 理 ; 在 第 了 区 组 内 的 试验 值 。&,9;, fy Es 分 罚 涛 
总 平均 ,处 理 效 应 ,区 组 效应 与 随机 误差 .并 假定 {eis} 全 体 独 立 ， 
ey ~N (0,0°). 

现在 我 们 把 这 个 模型 放宽 ， 上 只 假定 : 

8。 全 部 1 个 试验 结果 独立 。 

p、 芳 处 理 效应 不 存在 ， 则 在 每 一 区 组 内 的 们 个 试验 结果 阿 
。 处理 效 应 大 的 水 平 ， 甚 试验 倩 颁 向 于 增 大 《当然 ， 减 少 
也 可 这 无 关 紧 要 。 此 语 可 确切 地 解 县 为 : 车 ua， 幅 
eh Sl by 对 7 了 =1， 

,Friedman a 暂 没 所 有 太 1 的 分 布 画 数 都 处 处 连续 、 

因 入 i 则 的 问题 

闻 定 了， 以 sy 记 六 在 1 中 的 秘 。 今 


Rr, QD)= SR i =1,* ,I ( 4.130) 
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丑 , (KN) 是 第 7 处 理 的 1% 个 试验 值 ， 在 各 自 的 区 组 内 的 秩 的 平均 。 
操 上 上 述 假定 c， 若 处 理 效应 确 在 在， 鲁 泽 基 些 主 ， 丽 :2) 之 值 将 
大 而 对 另 一 些 ; 则 小 。 考 虐 到 所 有 改 ,(2) 的 平均 信 为 

> R, (n)/m 一 方 (m+ 1)。 


我 们 可 引进 下 述 统计 量 
2 _ m+1 
包 。 = I(R 4 (122) 2 ) 9 人 4*13T ) 


作为 衡量 外 理 效应 是 否 存 在 的 指标 一 一 @,。 愈 大 ， 处 理 效应 您 像 
是 存在 ， 这 导致 如 下 的 检验 ， 当 

,>C 《4.132 》 
时 ， 和 过 定 “无 处 理 效应 ” 的 原 假设 媚 . 这 个 检验 是 Friedman 在 
1937 年 提出 来 的 ， 遂 常 就 冠 以 他 的 名 字 。 为 确定 C， 要 确定 在 原 
假设 瑟 之 下 Qs 的 分 布 。 对 较 小 的 由，2#z，Eriedman 及 其 他 学 
者 给 出 过 这 分 布 ， 但 范围 有 限 。 当 如 较 大 时 可 使 用 下 面 的 极限 定 
理 ， 在 前 述 Cpc 假定 之 下 ， 若 处 理 效应 不 存在 ， 则 当 ”~ 时 
有 a ee C 4.133) 

为 证 明 这 结果 ， 考 虑 一 串 1 一 1 维 随 机 向 量 

Ey (Ri Rm) sj 12 

根据 上 述 假定 4,8， 这 一 训 随 机 疝 生 独立 辐 为 布 其 数学 期 望 向 
量 和 协 方 差 阵 分 别 为 


EC )= (th wal 


2 2 
me 


is 了 一 1T， “iO 1 


易 算出 (Cov (= pis 天 中 p= 2 和 I? PD 一 


当 ; 关 了 , 故 接 中 心 极限 定理 ,有 


12 
mm 1) 


a IT63 。 


m= a Ri.(n) 一 一) “hms {77) -于 一 : 站- 


eA (po 
Cp 2 
因而 ope Xi (C4.134) 
《4.134 ) 区 也 等 于 
127 ,33 十 1 \。 
12( 扩 十 1) 于 { 2， 之 ‘ Ril) 2 | 和 We (Rn 


233 十 1 十 1， 
2 (Ks 2 -2 站， 
六 为 
=. 更 十 工 ?382 十 1 
(RR, {72) 人 ){ RD 一 一 tl) 


-0 
知 


tH 一 1 


只 


3n4, bo A=1 


Lk Wj 人 i 2 ) 


2 


于 是 得 到 《4.134 ) 左边 正好 就 是 @,。 这 证 明了 所 要 的 结果 。 捧 
结果 ， 当 2 较 大 时 ，(4:182 ) 中 的 常数 C 近似 地 可 取 为 
C 一 加 -2)， 《4-135 ) 
此 处 & 为 给 定 的 检验 水 平 。 
在 正 态 方 状 分 析 中 ， 常 用 于 检验 “处 理 效 农 为 0 的 检 验 ， 
古 以 


天 《 开 一 1) 了 DG. ey mt m1) (HR) 


4—1f-l 
为 枯 定 城 的 百 控 验 : 宛 ,Friedman 从 恰 (FR) 生 此 丛 验 的 对 比如 : 
林 ? 可 以 证 时， 在 如 下 型 的 对 产 很 设 
有 一 一 
(4.136). 
.164. 


之 下 ， 二 者 的 渐 近 相对 效率 为 


ARE (FR, FZ; Fy—— AREW,t; F), 
1 二 1 


其 中 形 ,1 分 别 是 Wilcoxon 两 样本 秩 和 检验 与 两 样本 t 检验 ,由 
此 式 可 知 ， 当 ?不 太 小 时 ，Friedman 检验 与 环 检 验 香 比 处 在 有 
利 地 位 ， 当 加 小 时 则 否 。 

2， 结 存在 的 情况 

结存 在 的 情况 比较 重要 ， 因 为 ， 有 时 区 组 试验 的 观察 结果 是 
展 性 的 ， 钢 如 产品 的 等 级 . 在 这 种 情况 下 通常 的 检验 不 能 用 ， 
而 Friedman 检验 只 须 稍 加 修改 就 可 以 〈 这 一 点 也 适用 于 多 样本 
问题 ， 见 前 ) .修改 步 又 如 下 ， 

42、 把 Rs 在 各 区 组 内 按 平均 法 修改 为 玉 ?;y， 而 二 (32) 收 改 


为 R (0 一 必 R?4/n. 在 Qs 中 以 RY(n) 代 RiC2)， 所 得 结果 
记 为 x， 

忆 。 对 每 个 了 ， 1 =1," ,ny 找 出 (了 4、… ,下 m9) 的 结 统计 量 
(T1149 To,1). 计算 


QO,= { 1 一 2 名 Cr) (am?— ») Pe:, 
《4*137 ) 
可 以 证 明 ;在 原 假设 成 立 之 下 , 当 j ->co 时 有 信之 ， 六 


故 以 { 令 >> 冯 -1(a)} 为 否定 域 的 检验 ， 有 渐 近 水 平 wx。 

3. 对 立 假设 有 序 的 情况 

设 根据 问题 的 实际 背景 ， 有 理由 认为 : 当 原 假设 〈 无 处 理 效 
应 ) 不 成 立时 ， 水 平 编号 愈 大 者 愈 优 , 这 可 以 解释 为 ， 若 以 Fis 记 
六 ,的 分 布 ， 则 对 于 任何 轩 定 的 7 ， 当 UV 时 天 X) 大 
Fst(X)， 妈 

Xs SY, SuSEM, f=1," nN, 《4-138 ) 

仍 以 五 (4) 记 .PD. 在 各 自 的 区 组 里 的 秩 的 和 。 若 
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《4.138 ) 成 立 ， 则 ; 伟大 时 ， 慌 ,07) 汪 倾 血 于 大 。 由 于 六 CN) 十 
十 大 (0) = 20+ 1) 大 一 党 数 ， 知 统计 量 


7 = DiR,n) 《4.139 ) 
# 三 1 


也 倾 向 于 取 较 大 之 值 ， 这 导出 如 下 的 检验 ; 
当 荆 ,之 C 时 否定 原 假 设 、 € 4:140) 
不 难 证 明 ( 留 给 读者 作为 练习 ): 设 革 ,s 的 分 布 连续 ， 则 在 
原 假 设 成 立 之 下 ， 当 #->ceo 尘 有 


(Tan) /bs NO0,1), C4-141) 


其 中 Cn 一 IN 十 1)°, b2= Tov nm I mmt 1)。 利用 


(4141), 当 tr 较 大 时 ,《4'140) 中 的 C 可 近似 地 取 为 Ca 十 Dot 
& 为 给 定 的 检验 水 平 。 1 

4， 勇 一 种 恰 验 方法 

前 已 指出 , 当 和 如 较 小 时 , Friedman 检验 的 表现 不 理想 .其 原因 
何在， 对 m 一 2 的 情况 稍 者 分 析 不 难看 马鞭 端 爹 。 简 单 计算 来 明 
当 1 一 2 时 ，Friedman 统计 量 (4.131 》 有 24( 有 妇 /n 一 1/2): 的 形 
式 ， 其 中 4 为 处 理 1 在 各 区 组 中 了 区 秩 1 的 次 数 。 肉 此， 在 这 个 场 
合 下 Friedman 检验 事实 上 就 是 符号 和 检 验 ， 而 一 般 说 米 ， 符 号 从 
验 的 表现 不 如 更 精细 些 的 秩 检 验 , 例如 Wilcoxon 检验 . 这 从 
《4'79 ) 式 下 面 那 个 表 中 的 对 比 可 看 出 一 些 ， 

进一步 看 ，Friedman 检验 上 述 缺 点 的 根子 在 于 ， 它 在 定 秩 
时 只 利用 了 各 区 组 内 的 相 开 比较. 诚然 ,在 区 组 有 较 大 差异 时 ， 简 
单 地 把 全 部 羡 泥 在 一 起 定 秩 ( 如 在 多 样本 问题 中 的 做 法 ) 不 行 .但 
如 先 对 样本 到 ,jy 作 一 些 处 置 以 除去 区 组 差异 的 影响 ， 然 后 合 在 
一 起 定 秩 , 则 道理 上 说 得 过 去 。1962 年 ，Hodges 和 Lehmann 根 
据 这 个 想法 ， 提 出 了 一 个 效率 更 高 的 秩 检 验 。 


* 166* 


以 区,; 记 区 组 7 的 平均 直 : X.y 一 如 六 uy/m。 条 件 比较 好 
的 区 组 了 ， 互 .; 倾向 于 大 些 . 把 区 组 7 内 的 观察 值 生疏 ww 
都 减 去 这 区 组 平均 值 ， 得 

一 1 Jl, 

在 样本 {六 ;ys} 中 ， 上 出 区 组 差异 带 来 的 影响 已 清江 了 。 

现 以 Ri 记 妃 , 在 合 样 本 {ww:U= 二 1 9，20 一 1 中 
的 秩 ， 然 后 按 多 样本 问题 的 方式 去 处 理 . 即 引进 定义 在 {1,2,…， 
m7} 上 的 计 分 函数 ,计算 

S,— 人 Ba(R'y), i =1,. ,1 
然后 按 《4.109 ) 式 计算 统计 量 ( 注 意 此 处 胡 当 于 和 一 Ms 一 … 一 ?im 
二 7 的 情况 》 


其 中 a 一 写 qti) /mn 可 以 证 明 ， 在 大 4 的 分 布 连续 的 条 件 下 ， 


当 原 假设 成 立时 有 
7。 x, HH—>00, 《4:143 ) 
四 此 ， 以 {TYR (0) 4:144) 


为 否定 域 的 检验 ， 当 7 较 大 时 其 水 平 接近 4. 

特别 ， 在 4a(2) 二 2 时 ，《 4'142 》 有 形式 

T= ,Ri Run 

(C4:145) 

此 检验 对 Friedman 检验 的 ARE,， 相当 于 Wilcoxon 检验 
对 符号 检验 的 ARE， 

如 果 在 经 过 变换 以 后 的 样本 {A : ft =1,"* 1, 7 一 Tv 
?8} 中 有 结存 在 ， 则 可 以 按照 多 样本 问题 中 修正 统计 量 《( 4*109 ) 
的 方式 ， 去 修正 ( 4'142)。 修 正 后 的 统计 量 在 原 假设 成 立时 ， 仍 
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有 (4.143)。 


8$4.4 随机 性 与 独立 性 的 秩 检验 


一 、 随 机 性 的 秩 检验 

1. 问题 提 法 ” 设 有 一 维 样本 六 1,… ,六 ;:。 所 谓 “ 随 机 性 假 
设 ” ,是 指 

吾 : 站,,…, 芒 ,是 从 某 总 体 中 抽出 的 简单 样本 《4.146 ) 
这 个 原 假 设 。 在 一 些 稍 况 下 ， 纹 先 已 知 或 有 理由 假定 关 ,,… 六。 
独 谱 。 这 时 随和 宙 性 假设 归结 为 “ 信 ,,… ,六 同 分 布 ”, 这 是 多 样本 
问题 当 2 一 … 一 和 一 1 时 的 一 个 特例 ， 

容易 理解 ， 随 机 性 假发 必须 针对 特定 的 对 立 候 设 去 检验 ， 才 
且 有 下 义 的 问题 。 可 以 举 几 个 例子 来 说 明 这 一 点 

C.、 设 大 ;一 一 1， 有 ;一 0， 拓 :一 一 2， 有 4 一 10000 
韧 一 看 ， 这 很 不 符合 随机 牌 候 设 。 因 为 其 中 一 个 嵌 本 中 到 了 离 群 
很 远 的 地 方 。 但 如 设想 总 体 分 布 是 ，P( 人 = 一 2)=P (X= 一 1) 
二 P(X=0) 二 P(X=10000) 二 1/4， 则 把 这 组 样本 认为 是 从 这 分 
布 中 抽取 的 ， 就 显得 很 白 然 ,反之 , 闪 事 先 已 知 各 样本 客服 从 方 着 
为 1 的 正 楚 分 布 《 这 时 随机 性 假设 等 二 各 样本 的 期望 相同 ) , 则 上 
述 样本 与 随 视 性， 看 来 相去 其 远 ， 

5b， 设 有 样本 涉 ，，… 和 满足 条 作 XX 之 半 , 之 … 之 六 , 初 一 
疾 样 本 因 有 一 称 上 和 认 的 趋势 ， 而 与 障 机 性 不 合 ， 可 是 ， 在 已 有 了 
莹 1，… 丰 。 这 4 个 数值 后 ， 当 随 视 性 成 立时 ， 它 的 任意 一 称 掉 
列 方 式 〔 一 共有 nk! 种 排放 方式 ) 有 同等 的 可 能 1/41 ,换血 活 说 ， 
表面 上 看 来 七 升 的 4 …: 和 其 实 与 其 他 任何 排列 比 ， 诸 无 特 
异 之 处 。 和 但 如 我 们 在 事先 有 理由 认为 工 ; 满足 线性 回归 模型 

Xat pliters £1 1, snes En tid, (4:147) 
且 妇 < 之 … 之 ta. 则 8 二 0 档 应 于 随机 性 。 加 我 们 针对 对 立 假设 
5>0， 则 抒 t<…< 汪 这 样 的 样本 ， 就 显得 与 8>0 很 合拍 ， 


ss ICH 。 


因而 就 有 理由 怀疑 随机 性 假设 不 成 立 。 

c, 设 样本 只 能 取 0,1 两 个 值 ， 而 我 们 得 到 样本 0,0,1,1,1.。 
初 一 看 也 觉得 这 与 随机 性 不 其 合拍 。 因 为 0,1 各 自 聚 在 一 起 ， 像 
是 有 某 种 相关 性 存在 。 可 是 与 在 5 中 一 样 ， 在 巾 机 性 成 立 的 前 
提 下 ， 两 个 0 三 个 1 的 10 种 可 能 的 排列 形状 有 完全 辐 样 的 概率 
市 办 此 ，0,0,1,1,1 这 个 结果 与 (比方 说 )1,0,1,1,0 相 比 ， 无 任 


何 符 异 之 处 ， 而 1,0,1,1,0 这 个 结果 看 上 支 像 是 符合 跑 机 性 。 但 
如 区 们 存 理由 认为 ， 阁 不 随机 则 基 由 “ 正 相 关 ” 所 引起 的 ， 则 
0,0,1,1,1 这 个 结果 就 像 是 与 对 立 假设 更 接近 些 . 

我 们 下 面 要 讨论 的 随机 性 秩 检 验 、 就 是 针对 这 里 的 53.c 两 种 
情况 ，。 

2. 针对 上 升 趋势 的 鞭 检 验 .我 们 假定 苹 ,,…, 装 , 独立 大 ,的 
分 布 , 连续 ，# = 二 1,…,n。 随机 性 假设 相当 于 F=f,=…= 
五 。， 座 对立 假 设 为 

入 > i Xs (C4:148) 
以 天; 记 下 ;在 尖 ,…, 苹 中 之 秩 . 车 对 立 假设 ( 4.148 ) 正确 ， 
则 下 ;倾向 于 排 在 第 让 位 附近 ， 即 R, 倾向 于 取 守 附近 的 值 。 因 
些 ， 统 计量 


Tv- DOR) RD -2diR, 
4 一 1 4=1 二 一 由 +=1 
= 二 (n+ 1) (272+1)—2 PR, (C4.149) 
$=1 


倾向 于 小 。 记 5, 一 忆 iR,， 得 到 如 下 的 检验 ， 

当 5S。 之 C 时 和 否定 原 假设 ， (4.150 ) 
对 较 小 的 2,S。 在 原 假设 下 的 分 布 易于 定 出 ,利用 它 , 可 根据 给 定 
的 捡 验 水 平 a 确定 《4.150 ) 中 的 临界 和 值 C . 当 nw 较 大 时 ， 可 使 
用 下 闸 的 极限 定型， 当 发 ，… 天。 独立 同 分 布 且 分 布 连续 时 ， 
zc 时 有 有 
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(S。 一 本 2 DatarDw5i/12 ) No 
《4'151》 

而 定 出 《4.150 ) 中 的 证 似 值 
一 于 12 TI 十 iT1)AA 天 二 1 zz。 | (Ca:1527» 


《4-151 ) 可 从 定理 4-4 推 出 : 取 Cri=f， 一 1，…， 天 面 
PH) =U, OLUl, 

此 检验 可 用 于 检验 模型 (4.147) 中 的 8=0, 对 立 假设 是 8>>0， 
让 此 假定 了 二 < 和 之 … 之 在 通常 的 线性 回归 分 析 中 候 定 误差 
ei 服从 正 态 分 布 N(0,0*),8= 二 0 的 假设 是 用 由 最 小 二 胰 法 导出 的 
t 检验 去 检验 之 。Staurt 在 1954 一 1956 年 的 工作 中 ， 考 虎 了 和 铁 
检验 (4.150 》 对 这 个 三 检验 的 ARE。 在 右 = ;的 情况 ， 结 果 为 
M3/7 尽 0.98， 很 接近 于 1 。 - 般 边 ， 当 误差 e, 独立 同 分 布 ， 
且 公 共 分 布 忆 有 密度 时 ， 有 ARE ( (4.150),t,F)=: (ARE(W 
ft, 了 ))'。 这 里 ， 后 -表达 式 中 的 不 , 上 分 别 是 两 样本 问 题 的 
Wilcoxon 检验 和 上 检验 。 

由 此 看 出 ， 妈 使 一 个 表面 上 看 来 相当 粗 烟 的 检验 (4.150)， 
也 对 传统 的 +t 检验 有 很 高 的 部 争 力 ,其 至 在 正 态 场合 (这 时 t 检验 
处 在 优越 地 位 ) 也 是 如 此 。 这 使 我 们 对 非 参 数 方法 的 效力 具有 信 
人 心 。 也 可 以 反 过 来 去 看 ， 通 过 引进 很 细 疲 的 机 型 和 分 析 方 法 《 正 . 
态 假定 ， 最 小 二 乘法 ， 上 分 布 等 ), 比 之 直接 从 常识 出 发 而 导出 的 
方法 ， 并 未 增加 多 少 东 西 。 

3. 针对 相关 性 的 对 立 假设 一 一 游程 检验 

在 一 个 只 包含 两 个 符号 的 序列 中 ， 由 相 邻 同一 符号 形成 的 一 
眉 叫 一 个 游程 。 鲍 如 在 1001110100011 中 ， 有 4 个 “1 游程 ?, 即 
1,111,1,11 3 个 “0 游程 ”, 即 00,0,000。- -其 有 了 个 游程 ， 

先 设 样 本 反 ，…: 兴 。 攻 只 取 0、1 两 个 值 , 则 每 组 试验 结果 ， 
都 是 一 个 由 0, 工 构成 的 序列 。 如 果 广 ，,… ,六 ,。 有 随机 性 (独立 隔 
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分 布 ), 则 在 这 序列 中 0,1 两 个 符号 泣 当 既 不 太 集 中 又 不 太 分 艇 ， 
雪 此 游程 总 数 应 当 适 中 (个 大 不 小 }。 反 之 ， 若 相 邻 变量 之 间 存 在 
正 桥 关 ， 出 六 ,_!= 二 1 易 引 总 六 ;二 1 .这 时 0,1 在 序列 中 会 筑 疝 于 
更 华中， 市 导致 游程 总 数 减 少 。 业 似 过 ， 若 相 邻 变量 之 间 存 在 负 
相关 ， 别 游程 总 数 贷 向 于 增多 。 这样， 序列 中 的 游程 总 数 $ 提供 
了 随机 性 的 -一 种 检验 方法 。 

不 难 证 时 (于 Feller; * An Introduction to Probability 
Theory and its Applications> 第 二 章 ), 革 有 加 个 0 和 ,个 1 
随机 地 排 成 一 列 ( 意 思 是 ， 这 和 十 Ha 个 符号 的 《zi 十 Ms) 1 种 可 
能 药 排 列 方式 为 同等 可 能 )， 并 以 <《 记 1 游程 个 数 ， 则 


Pe hoes( Wt (my 人 


六 为 0.1 游程 个 数 相差 至 多 为 1 ， 可 以 就 使 用 & 来 构造 检验 ， 而 
不 必 一 定 傣 骨 游程 总 数 ， 

有 了 样本 六 ,，… ,六 后， 先 数 出 共 中 0 的 个 数 44,1 的 个 数 
Ws 二 4 一 2741。 就 这 个 2 ，ja， 算 出 对 各 个 玉 的 概率 《4.153 ) 之 
值 。 如 针对 的 对 立 假 设 是 正 相关 ， 则 要 取 # 的 小 值 作为 否定 域 ， 


当 6 福 C 时 否定 《4'154 ) 
女权 据 条 人 

el x i 

SE FL1) (nm ja e165) 


去 选择 。 当 这 样 的 C 不 存在 时 ， 可 适当 调整 a 之 值 ， 或 施行 随 宙 
化 ， 
如 针对 的 对 立 假设 为 负 相 关 ， 则 应 取 长 之 C } 为 否定 域 。C 


的 决定 法 与 (4:155 ) 相似 ， 只 和 号 改 为 3 = min(?,, 
81+1 
Ji 十 1)。 洲 对 立 假设 兼 有 正 负 相关 之 可 能 ( 双 侧 几 )， 则 应 取 


4E<CiUHfE>C 为 任 定 域 ， CC, 由 


间 ( 人 站 (人 站 1( 生 )= 人 【人 
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外 :六 a 
“\k—1 \ pe 《1.156 7 


确定 . 

当 gn， 和 入, 都 较 大 中 ， 上 述 利 用 精确 分 布 的 做 法 不 可 行 ， 
这 时 可 使 用 Mann 和 Wald 在 1940 年 证 明 的 一 个 关于 上 的 航 卫 
定理 ， 车 js ，782 >ce 丙 W VN， 和 17/71 始终 保持 有 界 、 
则 有 


Mm Mm YF a 
M714 ( 1 H+ 7 jaNY, 1}), 《4:157 》 


根据 这 个 定理 ， 当 向; ，7z: 部 较 大 时 ，(4:154) 中 的 和 可 近 以 
地 用 


C= RN 《jj2 + 42, ) 2 i 
jj21 十 471 7173 .373937: 


代 兰 之 对 《4:156 ) 中 的 CC， 也 有 类 似 近 似 式 。 

现在 考虑 样本 取 任 意 值 的 一 般 倩 总。 它们 基 基 于 类 似 的 想法 
当 有 正 相关 时 ， 序列 二 :天 中， 小 值 便 向 于 扎 蕉 ， 火 值 也. 
如 此 ,. 故 车 以 羡 记 六,，… ,六 ,的 样本 中 位 数 ， 而 令 ,二 0 或 1， 
视 天 ,生发 或 蕊 ， > 受 而 定 ， 册 全 由 0,1 组 成 的 序列 1,… 
0《 相 应 于 羡 ,,…， 闫 。 中 的 小 值 ) 倾向 于 成 堆 ，1 也 一 样 ， 
之 ,1 游程 的 个 数 & 倾向 于 减少 ， 当 相 邻 变量 为 负 相 关 时 ， ne 
似 。 四 此， 在 得 到 序列 Xi1， 0 信 ， 后 ， 也 用 前面 处 理 .0， 1 序 六 让 
的 方法 去 检验 之 即 可 ， 

二 、 独 立 性 的 秩 答 验 

设 《 芝 1, 了 了 0) ,…,( 区 ns 了 Ys) 是 二 维 随机 向 量 《 芒 , 了 Y ) 的 简单 
样本 ， 菊 检验 假设 

妃 : 开 ,了 独立 ， 《4'159 ) 
这 个 问题 在 例 3.9 中 讨论 过 。 站 那 旺 我 们 引进 了 Kendall 的 + 检 
验 。 不 难看 出 ， 该 检验 的 和 检 验 统 计量 事实 上 内 与 关 , 和 了 Y, 的 秩 
有 关 ， 因 而 是 一 个 秩 检 验 。 本 有 段 再 介绍 儿 个 与 此 问题 有 关 的 夸 检 
验 。 
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1。Spearman 的 秩 站 关 检 验 ， 

Spearman 在 1904 年 引进 的 秩 相关 检验 ， 属 于 历史 上 秩 方 
法 最 早 的 应 用 之 一 。 这 方法 的 概念 很 简单 。 先 考虑 结 不 存在 的 情 - 
座 。 以 &, 记 及 | 在 有 中 之 秩 ， 如 记 Y, 在 Y，,… ,Yn. 
中 之 秩 。 用 “ 秩 样 本 2”( 纺 , 开 ) ,a 下 。) 代替 原样 本 计算 相 

rn -3 (Q, 一 已》 (R,—R)/(S (WW, -可 :多 (ER, —R)?)' 

(4-160 ) 

其 中 可 一 -二 一 及 ,然后 ， 视 对 立 假设 为 “ 正 相 关 ”“ 负 相关 ”、 
或 “正人 负 相 关 都 可 能 ”而 相应 地 取 和 否定 域 

{n>C {oC ,或 {17, | 之 C1. 《4.161 > 
岂 秩 相关 系数 (4.160 ) 代 圭 通常 的 相关 系数 来 作 独 立 性 零 验 ， 
理由 在 于 在 愿 假设 下 当 分 布 连 续 时 ， 秩 相关 系数 有 “分 奏 元 关 ” 


性 。 事实 上 ,由 于 @= 站 一 2 ， 而 {Q@,,… Qs} 及 {RR,， 


都 取 1,2,… ,7 一 次 且 仅 一 次 ， 有 0 -Q) = > CR, —- 


及): -i es 区 (9 一 D， 是 -个 只 依赖 性 的 着 洲 , 又 . 


5 (Q,—@Q) ee QR,—nQR=L, 一 二 (2 十 1 
tt-1 -1 


其 中 一 沪 Q,R,, 这 样 ， 要 找 7。 的 分 布 ， 只 须 找 L。 的 分 布 。 但 . 
易 见 当 原 假设 (不 ， 独立) 成 立时 ， 有 
pe eh 《4:162) 
n= 121 
这 可 如 下 证 明 : 辐 窟 《 包 由 的 一 组 值 《Gy Qn )》， 而 去 : 
把 在 《 U1, Wn ) = C0 Gn ) 的 条 人 下 ， Ls, 的 条 件 分 布 。 
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2 必须 取 工 7 中 各 数 一 次 且 仅 一 次 ， 由 于 六 ， Y 独 
Ly A ;Qn) 与 (CR, , ER,) 独立 《 因为 前 者 只 与 成 
-发 。 有关， 而 后 省 只 与 了 了 ,,… 了， 有关), 故 上 述 条 件 分 布 ， 也 就 


等 于 名 giR, 的 无 条 件 分 布 ， 由 于 91,…,9。 跑道 1,…,%， 可 找到 
《1,7) 的 一 个 置换 (4,…,) ,使 qi 2 1 =1,"*',N, 这 样 
:a : 民 , 一 iRi,. 但 因 民 ,,…,R。 为 简单 样本 了 1,…，Y。 的 秩 ， 


a i 四 
有 CEs Ry) = CR An). 故 知 9K,= ik 从 而 证 


明了 工 ,的 分 布 与 访 iR， 的 分 布 相同 ， 而 后 者 在 原 假 设 下 为 分 布 
无 关 ， 
檬 据 芋 述 ， 否 定 域 (4-161) 可 以 相应 地 用 下 述 否 定 域 取代 。 


{Ls>C}, {Lr 之 C}, 或 {4s 一 一 (十 1)°|>C} ( 4°163 ) 


为 确定 临界 值 C， 当 n 较 小 时 可 直接 计 算 也 iR, 的 精确 分 布 。 


在 4 较 大 时 可 利用 ,的 浙 近 正 态 性 。 据 上 上述, 这 议 是 (4.151》 
《 把 其 中 的 $4 改 为 Ls,)， 

Spearman 秩 相 关 检 验 可 以 从 另 一 个 考虑 得 到 。 如 果 苇 ，Y 

为 正 相 关 ， 则 (eye@o) 与 (下 天) 应 为 “同步 *， 即 当 多 小 


《大 ) 时 忍 , 也 倾向 于 小 (大 ) 。 因 此 ， 表 达 式 也 (Q, 一 R): 应 倾 
向 于 小 。 若 王 ， 了 为 负 相 关 , 则 ,小 (大 } 时 太 ， 0 
这 时 之 > (Qs 一 忍 ,倾向 于 大 ， 然 而 


名 (QR 一 训 Qi+ 训 有 -2 名 QiR 
= (N+ 1)(2n+ 1)— 2 2 > QR,, 
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故 基 于 包 (@, 一 R)* 的 检验 法 ， 与 基于 人 ~- 之 Q,R, 的 答 验 法 
完全 相同 。 

此 检验 的 效率 如 何 ? 拿 它 与 常见 的 相关 系数 检验 法 ， 在 正 态 
分 布 NC(4,58,03,02,p) 的 场合 下 去 比较 ,p==0 相应 于 六 ,了 独立 ， 
Pp>>0 和 p<0 分 别 为 正 、 负 相关 。 可 以 证 明 ， 针 对 这 个 场合 ， 
Spearman 检验 对 通常 相关 系数 的 俭 验 的 ARE 为 9/7* 心 0.912. 
这 是 Kruemer 在 1974 年 证 明 的 . 这 里 我 们 又 得 到 鲜明 的 印象 
尽管 Spearman 检验 看 上 去 很 粗 烽 , 但 它 与 建立 在 很 特殊 的 假定 
正 态 ) 之 下 ， 并 经 过 很 复杂 的 分 析 才 得 出 的 检验 法 对 比 ， 效 率 损 . 
失 鞭 实 很 小 。 而 Spearman 检验 达 有 “分 布 无 关 2 的 汰 点 ， 即 不 
致 因 模 型 假定 错误 而 发 生 大 问题 。 

如 时 结存 在 ， 则 需要 作 适 当 的 修正 。 我 们 从 统计 量 > 〈 包 ,一 


R,):=T n 出 发 (上 面 已 指 } 1 这 与 Spearman 的 秩 相关 系数 等 价 ) 
去 修正 更 方便 些 。 步 邓 如 下 ， 

QQ， 在 ( 兰 (,…, 苹 ,) 和 (CY,,… 了 ,) 各 自 的 范 赎 由， 用 平均 法 定 - 
秩 ， 把 Q.,R, 分 蜀 修正 为 Q?,R? ,把 T。 修改 为 2 CQ? 一 RR?) 
=T: 

2. 定 击 ( 太 1 六 和 和 CY,… ,了 4) 各 烽 的 结 统计 量 (rl， 9 
Tp) 和 (#7,… za) 。 计 算 

4 一 去 (rn —n) -二 训 《 Tt) 十 >> 一 ) 


f 5 (7 —T wy 
2 一 2 Ne 
B? 6 (RR—1)m(n+ 1)? 


Cc。 经 过 上 述 修正 后 ， 在 诛 假 牙 成 并 之 下 有 
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(T* ~ A B, pa 《4-16+ ) 
所 54164) 当 电 嫉 大 有 时， 针对 三 个 对 立 假 设 :* 正 相关 ?>、“ 负 相 
关 ? 和 “ 正 、 负 和 相关 部 可 能 ?， 和 否定 域 可 依次 到 为 
TIAA mBatto, TI> Ast Battas 及 IT? A | > Bt 
( 4.165 > 
:出 处 ax 为 给 定 的 检验 水 平 。 
可 议 引 进 一 个 在 集合 11,2,… ,NH} 上 非 降 的 计 分 函数 Ch) 


而 把 Spearman 秩 相关 窒 验 推广 为 令 Z,~ a(RWa(Q0) .在 结 


不 在 在 及 原 候 设 成 立 ， 且 C&() 清 足 一 定 的 条 件 〈 鲍 如，4&(C) 是 
定理 4.4 或 定理 4-5 中 的 那 种 形式 ) 时 ， 有 有 


RT CY SB Cali) -a), NGO0,) ,4°166 ) 


此 处 5 一 吕 ali)/n。 这 样 ， 就 可 基于 Zr。 作出 针对 前 述 三 种 对 
立 假设 的 大 样本 牧 答 验 。( 4.166 ) 的 证 明 方 法 与 C( 人 一 了 时 一 
样 。 细节 留 给 语音 。 

不 同 44 的 取 法 ， 导 致 在 种 种 等 吻 的 对 立 假设 上 表现 不 一 
的 检验 。 a 


样本 问题 中 Van der Waerden 检验 和 Fisher Yates 检验 中 那 
简 琅 法 ， 则 在 正 态 对 立 假设 N(a,b,03 ,902,p) 上 ， Ss 
-的 相关 系数 检验 的 ARE 为 1， 

2. 列 联 玫 的 多 处 理 。 如 果 瑟 ， 节 都 只 到 有 限 售 数 值 ( 也 可 
二 X，Y 都 是 属性 变量 ， 可 如 以 数量 化 ), 风 和， 世 独 立 性 的 控 

， 通 常 在 列 联 才 中 用 x*? 检验 法 进行 ， 思 我们 前 面 讲 过 的 多样 
0 可 以 把 秘方 法 引进 来 处 理 这 种 列 联 天 。 我 
们 先 把 数据 表 为 列 联 表 的 形式 (这 里 4,,…,a， 两 两 不 同 ， 
#8 ,"… 两 两 不 局 。 它 们 也 可 以 只 是 属性 变量 中 的 等 级 符号 )。 
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Cr 


| 
司 
bi ba | bs bs 行 和 
¥ | 
二 | 一 
a Li 12 | mH14 | Hi H1 
Gao 只 并 22 | Hof | nas 
ei Hl Ji * | R04 Ji Ri 
dr Mri Hro rj Mre | Hr 
型 和 dl | dz | ds | 4d, | 人 


先 考 瞄 对 立 假设 无 方向 的 情况 。 或 简单 地 说 ， 检 验 吓 针对 一 - 
切 对 立 假设 .这 时 ， 可 以 把 上 震中 每 一 行 的 数据 看 作为 从 一 个 总 
体 中 抽出 的 样本 ， 一 共有 > 组 禅 本 。 在 基 ，Y 独立 时 ， 给 定 到 
时 YY 的 条 件 分 布 即 等 于 Y 的 无 条 件 分 布 ， 因 而 上 述 + 组 样本 所 
来 各 的 + 个 总 体 ， 有 同一 的 分 布 .这 可 以 用 结存 在 时 的 多 样本 检 - 
验 法 去 检验 之 。 例 如 ， 用 Kruskal-Wallis 检验 ， 其 有 结存 在 的 
情况 为 公式 (4-120) 

从 表 上 舌 出 合 样 本 的 结 统计 量 为 (41,…, 4,) 。 现 在 算 第 ; 组 
( 即 第 ; 行 样 本 的 修正 后 的 秩 平 汐 。 第 1 列 内 每 个 样本 的 (平均 ) 


秩 为 了 (d+1)， 第 2 列 为 di 二 广 (dit+1),…， 一 般 ， 第 f 列 为 


i 十 二 dy-i 十 二 (dy 十 1) .由 此 可 知 


U | 
R: = 名 ts( Dd jy L 一 二 La 


检验 统计 量 本 
Ca dy) r 2 
7:-( A - ) 12 > 类 ( Rr 2 ] 2 


1 天 72《 如 十 1)》 i=1 2 : 
f《 4:167 》 
s 177* 


水 平 a 六 样本 否定 域 为 {T* > 和 -ie 

在 列 联 赛 上 ，Y 之 值 5,,… ,5b, 我 们 假定 已 按 由 小 到 大 的 次 
序 排列 。 车 了 为 属性 变量 ， 则 随意 排 一 个 次 序 都 可 以 。 不 论 你 如 
何 排 ， 记 得 出 的 统计 量 (4.167) 在 原 假设 下 总 有 极限 分 布 好 -,, 因 
而 检验 的 方式 不 变 ， 但 是 ， 了 的 值 排序 不 一 样 时 ， 由 之 算出 的 
R* 值 也 不 一 样 ， 故 统计 量 〈4.167 ) 在 一 组 特定 的 样本 之 下 所 取 
的 值 ， 与 人 秆 的 排序 有 关 。 这 一 来 就 有 如 下 的 可 能 。 甲 、 乙 两 人 
面 对 同 一 组 试验 结果 ， 因 甲 、 乙 对 胖 值 排序 不 同 ， 甲 所 算出 的 
TY 值 超过 突 _1(Q), 而 乙 算 出 的 则 否 ， 这样 帅 、 乙 霄 人 就 得 出 不 
同 的 结论 ， 甲 否定 康 假 设 而 乙 接受 。 为 免除 这 个 不 便 ， 可 在 事先 
高 定 一 种 次 序 ， 一 般 可 按 就 某 种 指标 而 言 是 自然 的 次 序 。 例 如 ， 
了 这 个 变量 是 关于 一 个 患者 得 某 病 的 程度 。 它 可 以 自然 地 按 由 重 
到 轻 排 序 为 重度 、 中 度 、 轻 度 及 无 病 四 种 ,或 反 过 来 也 可 以 ， 

如 果 要 构造 一 个 针对 有 序 的 对 立 假设 ， 风 必须 先 对 王 之 取 值 
排 定 一 种 有 意义 的 次 序 ， 如 上 文中 按 病情 严重 程度 排序 。 这 个 做 
了 以 后 ， 就 要 确定 和 的 取 值 的 一 个 次 序 ， 使 得 当 对 立 假 设 为 真 
时 ， 苞 的 六 值 所 相应 的 立 总 体 ( 其 样本 是 列 联 表 的 一 行 )， 随 机 地 
大 于 XX 的 小 值 所 相应 的 了 了 总体， 然后， 按 多 样本 问题 对 立 假设 有 
序 且 结 存在 时 的 公式 ( 见 例 4.11 前 面 的 讨论 ) 去 处 理 即 可 。 

针对 有 序 对 立 假设 的 另 一 种 处 理 方法 是 利用 Spearman 秩 
相关 检验 中 的 想法 。 每 一 个 样本 ， 按 政信 的 次 序 可 定 出 一 个 秩 
Ws ， 按 六 值 次 序 可 定 出 一 个 秩 五;;。 然 后 按 Spearman 检验 有 
结存 在 时 的 方法 去 狂 理 即 可 。 具 休 如 下 。 设 在 前 面 的 列 联 家 中 ， 
工人 得 的 次 序 已 按 Mr 排列 ， 而 六 值 按 Di < < 排 列 。 
在 第 ?7 行 7 列 中 之 任 一 样本 。 按 及 值 排序 ， 其 平均 秩 应 为 pV 十 


2 + 二 (4t 1)= (mI + 十 24) 一 地 94 一 1); 此 即 名, ( 实 
标 与 7 无 关 )， 而 按 丫 值 排序 ， 其 平均 秩 应 为 (dd 十 十 dj ) 一 
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寺 624+1)， 此 好 怀 s (实际 与 i 无关 )。 于 是 ， 在 Spearman 检 
验 有 结 情 况 的 4.06、c 三 个 步 又 中 ， 步 又 4 中 之 统计 量 了 8 为 
T:= 5 2 ns{! i+ 十 dy 一 六 Cds+1) ) 


=\ 加 十 和 十 1 一 万 (n+1) )} 3 《4-168 》 
步 又 45 为 计算 
1 sc 一 
篇 一 语 (15 一 4) 3! 站 a )， 
(4:169 7 
1 P,P 20) 
B= 536 (4— Dan+ Dl- 
( 于 
5 f=1 
ln 
然后 据 ( 4.164 ) 而 得 到 大 样本 否定 域 《 4'165 》 。 


看 一 个 数字 例子 。 

例 4.12 为 检验 4、B、C 三 种 药物 对 治疗 菜 种 疾病 的 效果 
有 否 差 异 ， 对 167 位 患者 作 了 试验 。 效 果 ( 病 人 演 疗 后 的 状况 ) 分 
严重 ， 中 度 ， 轻 度 ， 竣 瘤 四 级 ， 以 下 分 别 用 1 、2 、3 、4 记 之 > 


全 部 试验 结果 列表 如 下 ， 

~、 效果 

be | 行 和 
SS 2 3 4 

萝 

cx) | 
A 8 8 19 35 | 70 
B 2 3 5 20 | 30 
C 3 4 15 45 67 
列 和 13 15 39 100 167 


先 按 无 序 对 立 假设 去 检验 ， 用 公式 (4.167)， 算 出 了。 一 5.501w 
。179 。 


查 表 知 。P(xs>>5.501) 二 0.064。 此 值 比 0.05 大 ， 故 按 < 一 0.05 
的 检验 水 平 ， 尚 不 能 否定 “药物 与 疗效 无 关 ” 的 原 假设 。 

现 针 对 有 序 对 立 假设 去 检验 、 设 根据 事先 拥有 的 知识 可 认 
为。 若 各 药物 疗效 不 同 ， 则 应 是 

{有 比 B 差 。，BB 比 C 差 (二 者 至 少 成 立 其 一 )}》 
这样 的 情况 ， 按 表 中 数据 ， 算 出 《4'168 7 定义 的 7 取 值 为 
521459.5， 丙 出 (4,'169) 和 和 (4.170 ) 定义 的 4， 和 五, 分 别 为 
-631606 利 48955,79。 于 是 
(7 一 人 /DB 一 一 2.250， 

而 更 (一 2,.250) 一 0.0123( 更 为 MO:1) 的 分 布 函 数 ) , 故 即使 取水 
平 a=0.01， 用 本 法 据 所 得 数据 ， 也 接近 于 否定 原 假 设 . 很 其 
显 ， 这 是 因为 前 法 要 面向 四 方 的 对 立 假设 ， 因 而 比较 保守 ， 不 易 
必 现 差异 之 故 。 本 例 也 可 按 通 常 的 列 联 表 X? 检验 去 做 ， 结 于 更 
为 保定 ， 算 出 的 妨 值 为 6.358， 自 由 度 (3 一 1)(4 一 1) 二 6， 
.而 已 (X3>>6.358) 一 0.384， 


$4。5 秩 方 法 用 于 估计 问题 


非 参 数 方法 ， 尤 其 是 在 其 较 早 期 的 发 展 中 ， 重 点 在 假设 检 
验 。 至 于 估计 问题 ， 你 当然 也 可 以 说 ， 像 用 祥 本 均值 估计 一 个 未 
知 总 体 的 数学 期 望 这 类 方法 ， 属 于 非 参 数 估计 法 。 但 这 类 方法 ， 
也 多 六 内 是 把 参数 统计 中 习 知 的 问题 中 的 习 知 的 方法 ， 平 行 地 移 
过 来 售 已 ， 没 有 多 少 典 型 的 * 非 参数 ”成 份 . 

这 原因 不 难 理解 。 在 检验 问题 中 ， 如 果 模 型 中 的 分 布 族 很 
大， 则 为 得 到 在 愿 假设 下 为 分 布 无 关 的 检验 统计 量 ， 就 必须 使 用 
竺 殊 的 统计 量 ， 它 们 只 依赖 于 样 杰 中“ 一般 信息 (如 次 序 、 秩 之 
北 )。 例 妇 为 检验 对 称 分 布 (x 一 9 ) 的 对 称 中 心 8=0。 若 已 知 
下 为 止 态 ， 可 用 通常 的 一 样本 +t 检验 ， 但 如 五 可 为 任何 对 称 连 续 
:分布 ， 避 tf 统计 晤 在 89=0 时 已 非 分 布 无 关 ， 而 只 有 像 符 号 统计 
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量 ，Wilcoxon 符号 秩 和 统计 量 等 才 有 此 性 质 ， 因 此 、 发 展 合 用 
的 非 参 数 检验 法 蚌 一 种 必需 . 

俩 计 问 题 则 不 然 ， 畦 别 是 点 信 计 ， 对 它 并 无 上 述 * 分 布 元 关 " 
的 要求 。 加 在 上 述 例 中 ， 当 下 为 正太 时 ， 一 般 用 样本 均值 卫 去 舍 
污 8。 当 下 可 为 仔 意 对 称 分 布 时 ， 只 要 下 的 撒 望 有 限 ， 用 及 售 
计 8 这 个 方法 仍 可 用 ， 至 于 芒 在 9=0 了 时 并 非 分 布 无 关 这 一 点 ， 
六 不 影响 其 应 用 。 叉 如 在 两 个 总 体 和 XX、 六 的 分 布 分 别 为 了 (x) 及 
二 tx 一 0 的 情况 ， 你 可 以 用 正 态 情况 下 的 估计 基 一 令 去 估计 
8， 在 一 般 应 用 问题 中 ， 分 布 往 往 有 良好 的 性质 ， 如 方差 有 跟 
等 ， 这 值 计 用 一 及 因 之 也 有 较 优 良 的 性 能 ， 供 如 要 捡 验 9=0 列 
并 全 是 雪 一 个 间 题 ， 你 不 能 把 通常 的 检验 照搬 过 来 ， 

虽然 如 此 ,估计 问题 在 非 参 数 统计 中 仍 占 有 重要 的 地 位 ， 且 
就 近年 发 展 看 ， 售 计 向 题 在 研究 工作 中 还 受到 更 大 的 重视 .这 主 
训 是 由 于 ， 在 一 些 非 参 数 模型 中 ， 被 估计 的 最 在 传统 的 参数 统计 
中 并 无 可 直接 类 比 之 物 ,对 这 种 晤 的 估计 ,就 无 法 直接 据 用 参数 统 
计 中 慨 册 的 方法 。 第 六 章 中 讨论 的 概率 密度 们 计 与 非 参 数 回归 信 
计 是 一 个 重要 的 例子 。 除 此 以 外 ， 非 参数 检验 统计 最 的 发 展 也 提 
供 了 一 些 佑 计 问 题 的 新 的 处 理 方法 ， 其 优越 性 与 传统 方法 相 比 有 有 
竞争 力 。 本 节 中 要 讨论 的 对 称 中 心 及 位 置 参 数 的 估计 问题 ， 就 属 
于 这 种 情 癌 。 

一 、 对 称 中 心 的 区 间 估 计 。 

设 五 … 瑟 。 鸭 拍 自 分 布 严 (x 一 9 ) 的 简单 样本 ，F(Cx) 为 
关于 原点 对 称 的 连续 分 布 ， 其 他 无 所 知 。 

当 己 知 正 为 正 态 时 ， 习 用 的 是 + 区间 估计， 对 一 般 情 况 ， 因 
如 为 总 体 中 位 数 ， 可 用 $2:4 的 三 段 中 的 方法 去 处 理 。 但 那个 方 
法 没有 内 到 五 为 对 称 分 布 这 个 特点 ， 现 在 介绍 一 种 方法 ， 是 以 这 
一 战 为 依据 。 注 意 ， 在 以 下 总 假定 (Xx) 关于 0 对 称 且 处 处 连 
续 ， 不 再 一 一 申 明 . 

这 个 方法 分 以 下 几 个 步骤 ， 
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1. 找 一 个 统计 量 == 荆 ( 半 ,,… ,六 ,)， 使 : 

(1》 当 6 一 0 时 ， 全 的 分 布 不 依赖 于 屎 〈 即 统计 量 了 在 原 假 
设 86=0 时 分 布 无 关 ) 。 

(2》 对 任何 实数 Xp,Xn，TCX 一 86,… ,Xn 一 8) 作 鸭 8 的 省. 
数 ， 是 非 增 的 ， | 

在 以 下 用 P, 表示 ， 事件 的 概率 是 在 参数 值 为 8 时 计算 的 。 

2. 找 di,d;,， 使 

PT Ad ) 一 刁 ， Po (T>d)=7 (C4.171 > 


此 处 1 一 a 为 预 te 
3. 根据 1C2), 可 找到 统计 量 下 一 站 (ev js 2 ==:] #2 


TIKI—0,.… ,XX,—0) <d,<>0>h, 《4-172 ) 
TIX 0 ,X00)>d>0 <),, 《4'173 ) 
则 E56，5,] 就 是 8 的 置信 系数 1 一 a 的 区 间 估 计 。 

这 个 方法 的 主要 之 点 当然 在 于 1(1)。 方法 本 身 并 不 直接 与 秩 
统计 量 相 关联 。 但是， 四 于 满足 条 件 1C 1 ) 的 统计 量 多 是 秩 统 计 
量 ， 说 此 方法 本 质 上 是 一 种 秩 方 法 ， 亦 未 尝 不 可 ， 

方法 的 证 明 很 简单 , 设 9 的 真 值 为 0,。 由 (4'172) 和 
《4.173) ,在 

Ps, (bE0 < ) = Po (dST(F ~ 00 NX, —00) <d, ) 

=P(ad TA XR) SEA, ) C4:174 
再 用 《4.171), 即 得 Pe,(B <<9。 志 各) 二 1 一 a。 这 证 明了 [如 , 包 ] 
兢 有 置信 系数 1 一 a， 

在 以 上 的 叙述 中 忽略 了 某 些 细节 ， 

24. 由 于 获 统 计量 只 取 有 限 个 值 ， 当 使 用 秩 统 计 景 了 于 以 上 . 
方法 时 ， 不 一 定 能 找到 di，, d;,， 使 严格 地 满足 《 4-171)。 这 时 ， 
只 能 或 者 钨 下 e 之 值 ， 或 使 用 涛 机 北 , 后 者 在 应 用 上 是 尽力 避免 
的 ， 放 只 有 修改 & 之 一 途 , 但 如 六 太 小 , 则 wx 调整 重 可 能 过 大 ， 
而 不 适合 问题 的 要 求 。 因 此 ， 本 质 上 说 ， 这 方法 虽 不 基于 大 样本 : 

*， 182。 


福 质 ， 但 4 仍 不 能 太 小 。 

5 有 时 ，〈4.172) 及 (4.173 ) 中 的 “<=>” 号 的 有 边 ， 
可 能 不 是 gz 及 或 8 志 纪 ,, 而 是 9>> 全 或 9< 玉 .与 此 相应 ， 
《4:174) 的 第 一 项 ， 也 要 修改 为 (6 一 9 一 亿 ) ,或 已。 (6, < 
O06 所,)， 或 Pos (1 志 9。< 之 9,) .因而 得 到 的 区 间 估 计 是 四 种 可 能 
(区间 左 、 右 端 开 、 闭 的 四 种 组 合 ) 之 一 。 这 在 应 用 上 并 无 重要 
性 ， 但 值得 注意 一 下 。 

c， 当 7 较 大 时 ， 直 接 从 TI(X1,…, 义 , ) 在 98=0 时 的 分 布 
出 发 去 伐 @ ,Ga 大 繁 ， 可 使 用 大 样本 逼近 ,这 只 要 求 T(X,,…， 
六 ,) 在 9=0 之 下 有 极限 分 布 就 可 以 了 ， 因 为 《4171 ) 式 只 涉 
及 8 一 0 时 的 分 布 . 

例 4.13 取 Wilcoxon 符号 秩 和 统计 量 W'* 二 WW+ (到,,…， 
改 。) 作为 统计 量 耳 ， 我 们 米 验 证 ， 它 符合 1(1) 和 1《2)。 前 者 由 
定理 4.9 直接 得 出 ， 只 须 注意 :; 定理 4.9 中 关于 符号 秩 的 分 布 的 
{1)~(3) 儿 条 中 ， 没 有 一 条 小 及 分 布 琅 。1(2) 可 由 公式 (4.69) 
推出 , 据 该 公式 ， 有 

W(X DS VFR) HY (Ce 

1<12J<n sky 2 

其 中 w(x) 二 T(x>0)。 于 是 有 


全 +OX 一 日 ，Xn 一 日 ) 一 » Y (各 _p ) 


1 从 


委 于 WX) 是 % 的 非 降 函数 ， 知 1(2) 成 立 。 
WV! 只 取 0,1, 2， "es n(n+1)/2 等 数 为 值 ， 且 易 见 当 0=0 
时 ， WV' 的 分 布 关于 n(n 十 1)/4 点 对 称 ( 换 句 话说， 有 PAW"*= 


? 


1 :一 PW: = nn-1) i 2 =—0,1,., 78(MN 十 1) 二 这 个 
2 为 2 
简单 事实 的 证 明和 留 给 读者 (习题 18 ) “于 是 先 找 出 di， 使 
总 (了 1 一) 一 a/2， 《4.175 ) 


捧 后 取 = 开 9 一 d, 即 可 。 


。» 83 。 


后 ， 要 利用 定 出 的 思 ，d， 和 根据 (4.172 ) 各 (4'173) 冠 
出 忆 和 机 。 为 此 ， 把 人 一 二 n(n 二 个 数 [- 人 二 仿 1， 
< 7 <n| 接 由 小 到 大 排列 为 印 忆 志 到 oy 才 … 三 到 omy, 则 易 见 


W(X -0 ,A 0) Ed < ,Wa), (C 4°176) 
WF 0 0) dW a,,, (4"177 ) 
事实 上 ， 车 Wi'(X 一 9,…, 人 ,一 0) 寺 d,， 则 在 入 个 值 


i 


{人 0:1 志 ?1 所 J <nj 中 ， 至 多 有 dd, 个 大 于 0, 好 在 入 
个 值 [二 人 1 i <j < 加 中 ， 素 多 有 Gd 个 大 于 9。 出 于 


4 十 dd, 一 N， 这 无 异乎 说 4 之 Ww。 同样 的 理由 得 出 ， 站 03: 
Woe; 过 有 到 + 六 ,一 9,… ,太一 0) 志 dd,、 于 是 证 绷 了 (4:176)， 
(4.177 ) 的 证 明 类 似 。 

这 样 ， 得 到 9 芍 置 信和 系数 1--a 的 区 间 佑 计 为 

IW)y, Wes] 《4.178 》 

如 时 64:175 > 式 只 是 近似 的 ， 刚 1 一 a 讯 只 是 近似 的 导 们 系数。 

当 入 较 大 时, 可 利用 WW'! 在 9 一 0 之 下 的 汲 限 分 布 ( 见 例 4.5)y 
伯 近 似 池 鸯 出 


5 7(72 十 1 52( 了 2 十 1)(292 十 1)》 AN172 
al a ta/2s 
> 2 1) +( 0 D2) ) i 


这 样 定 出 的 d1、G 一 般 不 是 整数 ， 可 以 把 d 修正 为 [d1] (不 直 
过 由 的 正大 整数 ) ， 而 di 修正 为 - 世 宅 > [di]， 
人 
族 之 下 ， 得 出 有 确切 时 位 系数 的 区 间 信 计 。 人 们 往往 在 并 不 知道 
总 体 分 布 基 否 为 下 访 寺 也 使 用 t+ 区 间 人 这， 而 求助 于 这 个 珀 实 ， 
当 样 本 大 小 如 ->=o 时 ， 其 轰 仿 系数 趋 于 1 一 a。 然 酒 ， 对 国定 的 天 
(不 管 多 大 )， 总 可 以 找到 连 法 的 对 称 分 布 严 ， 俩 对 这 个 正面 言 ， 


本- 


FT EL 


t 区 亲 的 置信 系数 小 于 指定 的 8 六 0。 所 以 ， 有 条 困 我 们 对 问 是 中 
的 总 你 分 布 确实 了 人 解 很 少 ， 则 使 用 t 区 间 信 计 可 能 带 来 大 的 失 
误 ， 下 用 (4.178 ) 这 类 估计 ， 就 没有 这 个 问题 ， 

还 有 一 个 效率 的 问题 。 比 方 说 ， 益 休 分 布下 确 为 正 态 ,这 
呈 ，( 4.178》 和 + 区间 估计 部 可 用 ， 二 者 的 相对 效率 如 何 ? 这 
就 需要 引进 一 机 与 假设 检验 情况 次 似 的 渐 近 相对 效 率 ARE. 我 
们 不 去 深入 其 细 避 ,而 只 抄 出 其 结论 是 ， 区 河 估 计 之 间 的 ARE， 
正 寻 识 是 其 所 相应 的 检验 之 间 的 ARE。 拿 本 俩 情 训 说 ， 当 分 布 
真 为 正 态 时 ，(〈 4.178 ) 对 f 区 闻 售 计 的 ARE， 就 是 Wilcoxon 
符号 牧 和 检验 对 一 样本 t 检验 的 ARE ,部 3z。 吉 四 总 体 分 布 为 
其 他 分 布 , 则 ARE 郑 应 地 变化。 从 倒 4.5 的 讨论 可 知 , (4.178 ) 
对 t 区 间 信 计 处 在 在 科 地 位 . 

讲 有 这 一 切 使 我 们 相信 ， 相 对 于 优良 任 能 来 说 ， 非 参数 方法 
在 眼 芷 实用 中 受到 的 注意 太 小 ， 末 基于 正 态 假定 的 方法 的 状 识 ， 
则 正好 反 过 米 。 这 原因 我 们 在 第 一 意 中 己 有 记 说 如 ,有 历史 的 ,让 
算 的 ( 非 参 数 方 法 往往 涉及 较 繁 复 的 计算 ,如 果 不 浊 用 极限 分 布 的 
话 ) 等 原因 .一 部 分 出 是 出 于 误解 ， 认 为 非 参 数 方 法 狐 似 粗 粮 ， 
可 能 比 瑟 有 精细 理论 作 背 冰 的 正 态 方法 ， 在 效 深 上 看 莽 得 多 . 我 
们 入 从， 这 各 状况 有 袁 一 归 会 起 一 定 的 变化 ， 也 是 很 可 能 的 . 

二 、 位 置 参 数 的 区 间 佑 计 

设 天，… :所 。 条 开 了 分 别 是 从 分 布 R(X) 及 Fx 一 
8) 中 拍 出 的 简单 样本 ， 要 作 9 的 区 闻 估 计 。 此 处 我 们 只 假定 玉 
处 处 赫 纺 (不 必 对 称 )， 其 余 全 未 知 。 

解法 步骤 与 对 称 中 心 的 情况 完全 类 似 。 

1， 找 一 个 统计 量 下 = 有 有 ,使 

(1) 当 0 二 0 时 ， 了 的 分 布 不 依赖 于 下 ， 

(2) 对 任何 实数 x yyXng ng CXis Xn 一 
ma 一 0 作为 8 的 函数 ， 是 非 增 的 。 

以 下 已 , 的 意义 与 前 面相 辐 。 
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2. 找 Quid 信 (4'171) 成 立 ,其 中 1 一 ca 是 预定 的 去 信和 系数 ， 
3. 媚 1(2) ,我 统计 其 EY D(X, GD A A 


a 
窒 


(二 <， 
了 (和 > 人 二 9 
贡 [ 广 ,9 为 9 的 一 个 置信 系数 1 一 a 的 区 间 估 计 。 证 遇 与 对 称 
中 心 的 消 避 完全 相似 ， 细 节 留 给 读者 ,文人 在 对 称 中 心情 党 下 让 的 
如、D、C 二 条 注意 见 (4:174 ) 式 后 面 )， 在 此 也 完全 适 几 。 
例 4.13 选用 Wilcoxon 我 和 统计 量 全 =R 十 … 十 R,,， 
R; 是 ;在 合 样本 及， 了 ,Yas 中 之 秩 。 当 9= 
， 合 样本 独立 同 分 布 ， 有 公共 分 布 斑 , 因 下 连续 ， 由 定理 4-1 
- 本 的 分 布 与 下 无 关 ， 故 条 件 1(1) 满 足 。 条 件 1(2) 易 验 证 ( 细 
节 留 给 读者 ). 
为 了 找 di ,ds 利用 公式 (3.10) ,将 例 表 为 本 = 了 十 2 (2 十 
4》7/2， 其 中 也 为 集合 
凡 --{7Y 一 帮 1 二 Sn,1<7 <n,} 《4.179 ?> 
中 大 于 0 的 个 数 。 据 定理 4.2, 当 0 一 0 时 ,WW 的 分 布 关于 H(i 十 
1)72 点 对 称 ， 二 hi 十 2 。 故 局 之 分 布 关 于 点 有, (nn 十 1) /2 一 
N10 十 1)12= 二 21Us/2 对 称 。 以 下 就 用 芝 伐 替 瑟 米 讨论 ， 取 qd 
使 a1-1 ” 
PU= = 《4.180 ) 
再 取 由 一 ?ji 一 d 即 可 。 展 后 要 利用 dc&: 定 出 六 和 免 . 其 推 
避 过 程 与 得 出 (4176) 和 《 4177) 者 相似 。 我 们 只 把 结果 宇 出 
如 下 : 把 4179 ) 的 集中 省 元 按 出 小 到 大 排列 为 Uw) 志 … 万 
Cay 则 太一 Do， [ 癌 人 -Lun ， 从 击 得 出 如 的 区 间 人 估计 
LU :Ungtt)) (4:181) 
只 要 (4.180 ) 是 确切 的 ， 虽 区 河和 信 汗 (4.181 》 有 确切 的 置信 系 
数 1 --a， 不管 总 体 分 布下 如 何 .。 
这 个 区 冰 佑 计 对 两 样本 上 二 区 疝 估 计 的 ARE， 正好 等 于 


* a6 * 


wilcoxvn 秩 和 检验 对 两 样本 上 检验 的 ARE。 俩 如， 对 正 态 模 型 
这 个 恕 有 利于 上 区 间 估 计 的 场合 ，ARE 为 3/7， 

我 们 也 机 以 选 定 一 个 计 分 函数 &0.)， 而 从 统计 量 瑟 ,一 
关 a(RR,) 出 发 ， 去 构造 区 间 合计 。 这 区 闻 估 计 对 上 区间 估计 的 


ARE， 正 好 等 于 基于 革 ， 的 晨 作 本 秩 检 验 对 两 样本 上 检验 的 


ARE. 例如 ， 若 束 ct) 一 到 [一 二 六) 或 下 (GD )， 其 中 


惠 为 NN(0,1) 的 分 布 函 数 的 反 浮 数 ,而 Cs 委 … 委 Dw 为 (0,1) 
均 句 分布 的 次 序 样本 ， 则 所 产生 的 区 间 估 计 ， 其 对 t 区 间 司 计 的 
ARKE， 在 不 态 模型 下 正好 为 1 ，jh 在 其 他 模型 下 总 不 小 于 1， 

三 、 对 称 中 心 的 点 估计 

给 对 称 中 心 作 点 估 讨 的 方法 ， 以 前 提 了 好 几 种 ， 像 样本 均值 
( 当 总 体 期 望 存在 时 ) ， 样 本 中 位 数 、 截 尾 汐 值 、 Winsor 化 均 
值 等 . 这 些 估计 在 一 般 情 形 下 也 够 用 了 。 那 么 这 个 问题 是 否 还 值 
得 考虑 。 我 们 说 有 这 样 一 个 理由 。 不同 的 估计 ， 相 对 于 不 同 的 
总 体 分布 而 言 ， 其 优 朴 性 各 不 同 。， 如 果 我 们 对 一 个 景 设计 了 多 称 
估计 法 ， 丽 又 了 人 解 上 省 个 估计 在 何 神 模 型 下 性 能 较 优 ， 则 当 我 们 对 
所 面 对 的 问题 的 模型 有 记 了 解 时 ， 可 以 从 这 些 售 计 中 选用 一 个 ， 
其 性 能 较为 优良 ， 

这 里 我 们 介绍 Hodges 和 各 Lehmann 在 1963 年 引进 的 一 种 
合计 法 。 与 前 丽 介 绍 的 区 间 估 计 法 相似 ， 这 方法 形式 上 并 不 一 定 
与 悉 有 关 ， 但 其 使 用 多 半 限 于 秩 统计 量 的 情形 。 

现 设 到 pp 为 拆 自 分 布 (x 一 8) 的 简单 样本 , 下头 于 0 
对 称 且 处 处 连续 ,其 他 无 所 知 , 要 据 此 估计 8。Hodges-Lehmann 
估计 的 步 李 如 下 ， 

1. 找 一 统计 量 了 一 T( 丰 到 ,具有 以 下 的 性 质 ， 

(1) 当 8 一 0 于 , 荆 的 分 布 关于 荣 点 5 对称。c 为 已 知 常数 ， 
与 五 无 关 。 

《2)》 对 任何 实数 各 yy 7 (Xi 十 8，… Xr 十 98) 作为 8 的. 
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数 ， 是 非 降 的 。 

2 定义 有 一 所 (天 t =—1,2， 如 下 ， 
B=sup{a:T(X,—a, ,Xa ce}, (4.182) 
9,=—inf{a:T(X,— a. ,FX,— a)<<c}, (4.183) 

条 件 《2) 保 证 了 PS9,, 
3. 用 6 二 所 六 ,其 。… 闻 ( 负 十 B) 作 为 9 的 估计 。 这 就 


是 Hodges-Lehmann 的 估计， 以 下 简称 为 HL 估计 。 

所 以 ，HE 估计 不 是 一 个 固定 的 外 计 。 随 车 统计 量 信 的 选择 
的 不 同 ， 可 以 得 到 种 种 不 同 的 估计 。 如 下 面 将 铬 到 的 ， 共 优良 性 
取决 于 总 体 分 布下 如 何 . 

本 方法 的 关键 之 点 存 于 选择 统计 若 藉 。 了 的 选择 ， 一 般 是 使 
用 为 检验 愿 假设 8 ==0 时 的 伶 验 统计 量 。 值 得 注意 的 是 ， 此 处 并 
不 要 求 在 6 二 0 时 ， 了 的 分 布 与 下 无 关 。 故 不 一 定 要 从 非 参数 检 
验 统计 量 出 发 ， 见 下 例 。 

例 4.14 车 估 用 一 样本 上 统计 量 

T=V7/S， 于 一 名 fn SS: 乌 (站 一 下 )2/( 一 了 
则 易 兄 条 件 le 和 12 都 满足 (验证 细节 留 给 读者 ), 且 < 一 0， 纪 一 
纪 一 至。 由 此 得 出 估计 量 至。 当 总 体 分 布 严 为 正 态 时 ， 这 佑 计量 
至 有 很 多 优越 性 ， 而 上 统计 量 又 正好 二 当 瑟 为 正 态 时 ,检验 9 一 0 
的 优良 方法 。 以 下 将 指出 这 不 是 巧合 。 

如 果 选 用 符号 统计 量 

T=B1(X,>0), 

则 易 见 条 住 la 和 15 都 满足 ，c 一 2/2， 当 2 为 奇数 时 ， 甩 一 六 一 
(rt). 当 44 为 偶数 于， 有 ES. 0,=—X st 由 这 两 种 


情况 都 得 到 -med《 症 ,、… , 芒 ,) (参看 (2.17) 式 )， 
如 HE 千 计 不 难 证 明 下 面 的 小 样本 性 质 ， 
1， 佰 计 8 有 “平移 同 变性 ”, 嗓 对 任何 常数 a， 有 
HK Ta ,+a 《4.184》 
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为 证 此 ， 只 须 验 证 对 二 1,，2， 有 外 (Xi 十 4 … ,XX,+4) = 
全 (着,,-…, 卫 ,) 十 4。 这 不 难 从 扣 的 定义 得 到 。 细节 留 给 读者 。 
2。 车 在 定义 HL 估计 时 所 选 定 的 统计 是 也 ， 除 浦 足 条 性 14 
和 18 外 ， 还 满足 
TX X20— TX Xn) 《4:185) 
其 中 c 就 是 条 件 (1) 中 提 到 的 那个 c 。 则 六 前 分 布 关 于 8 点 对 


称 ， 且 
成 一 Xe 一 Xa) 一 一 站 Xe 《4.186 》 


为 证 此 ， 剂 用 6 的 定义 及 (4.185 ) 式 ， 得 
B(— Xs A) Sup{a T(t a) > 
—SUp{a:(2c— T(r to Ks t+ 0 ) Ch 
=Sup{a:T (XI 十 2 Xt Aa) <c}, 
在 此 式 中 , 改 4 为 4, 并 注意 sup{ 一 a:a€ A} 一 一 inf{a:a€ A}? 
得 B(x) inf{fa:T (ra, ,Xs 4) ce} 
一 一 六 (xn 
在 此 式 中 以 一 x, 代替 x,， 又 得 
BC— Kiss Xn) =X Xn) 
由 以 上 两 式 即 得 《4.186)。 又 因 到 +; 之 分 布 关于 8 对 称 ， 有 
太 ， = 于 是 由 ( 4+:184) 及 (4.186》)， 得 
OX sis Ka) P20 — Hise — 0X,) 
=20+0(— XX ,) 
一 28 一 8( ,NX,), 
这 证 明了 8 之 分 布 关于 9 对 称 。 由 此 可 知 ，med (8)=9. 在 统 
计 上 ， 称 具有 这 个 性 质 的 佑 计量 8 为 < 中 位 无 偏 ? 的 ,车 E161 过 
so ， 则 也 有 五 ,(9)=9， 即 8 为 9 的 通常 意义 下 的 无 偏 估计 。 但 
9 的 期 望 是 否 存 在 有 限 ， 取 决 于 总 体 分 布下 及 所 选 定 的 统计 量 工 ， 
如 在 例 4.13 中 ， 记 得 信 计 量 信 是否 有 期 望 ， 要 看 总 体 分 布下 是 
介 有 期 望 。 另 一 估计 量 ， 1 的 样本 中 位 数 ， " 它 的 期 望 存 
在 的 条 件 则 较 此 为 低 。 
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关于 HL 估计 的 大 样本 人 性质， 最 重要 的 是 下 面 的 结果 ; 

定理 4.13 以 车,，… 天。 记 从 分 布 了 (x 一 0) 中 执 胃 的 简单 
样本 ， 产 (xz) 关 于 0 ee 对 每 个 自然 数 8 选 定 统计 
量 TT 二 T,X ， 适 合 为 构造 0 的 HL 的 条 件 1C(1) 和 
nn c 现 记 为 c*， 记 产生 的 HL 估计 记 为 
8,。 如 果 统 计量 TT， 满足 定理 1:11 的 条 件 ( 即 条 伴 (4 54)、 
(C4.56)、 C4:58)、(4:60) 和 (C4.:62)， 且 6 二 KC(T,n,0, 玉 ) 与 
玉 无 关 ， 则 当 ?>=oe 村 有 


Mn (6.—0) TNO,AKLFY-). (4.187 ) 
证 明 把 在 定义 8L 佑 计 6 的 过 程 中 产生 的 统计 量 扬 和 
B 记 为 外 。 和 你。 由 〔《4.184 ) 式 有 有 (Xp 大) 一 0=- 
8 一 0 一 9)， 且 因 XCX 一 拉 有 六 ,一 90~F(X), 故 
不 失 普 过 性 可 设 8 一 90， 国 愉 常 数 &， 由 《4-182) 和 和 ( 4-183)y 
有 


Tn (%, 一 有 MH > 


pe A 本 
8 a, 


wn( 式 |,: ne a/v nA A 


于 是 得 到 
Pp, (NOK , 姓 n) 0) 


XX, ER a rs 外 
>P CT, ( Se RI 


=P_oyurn (TN [和 ;有 >Cn) 
一 
1,2, F) 


2 了， N00,F) -4(T, Ny F) 


GT C4.:188 > 
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根据 假定 ， 7 满足 (4，54》。 故 当 -ceo 时， 变量 (7, 一 
4 (7 Fr)) /9(T, nS 下 ) 在 8 一 -和 之 下 的 分 布 ， 


艇 敛 于 标准 正 态 分 布 B. 再 据 上 及 5 满足 C4:58)、《4'60) 和 和 
< 4.62), 知 当 3 一 co 时 ， 有 


(TaoE) -AT 二 ,FF)) /ol(T ,ns F) 


nF), 
于 是 由 (4188)， 人 得 
minfp (AB) 1 bak FY)) (4.189 ) 
另 一 方面 ， 仍 据 (4.182 ) 和 和 (4.183) ,有 
XX x ee 到 
| Fi A -< 
他 (大 pp. ye 
| Mn 0 
> > ) 
全 (和 <- Mn 


重复 上 面 的 推理 方法 ， 又 可 得 到 
liminf P, (Vnb, aoa FF)). 


《4:190 》 
注意 到 C4.189 ) 的 左边 等 于 1 一 limsup PCB, 之 a), 得 
limsup PVA a SE aK FE)), 《4*191 》 


于 《4"190 ) 和 (4.191)， 并 注意 到 分 布 函数 B 处 处 连续 ， 即 得 
lim PVR a) =aKr(F)). 
于 是 证 明了 (4:187)， 
如 果 把 两 个 估计 量 的 浙 近 方差 倒数 之 比 作 为 其 渐 近 相对 效 
率 ， 则 定理 4.13 可 以 解释 为 ， 设 我 们 从 两 个 统计 量 S$, 和 了 ,出 
发 分 别 去 作 6 的 HL 知 计 ， 结 果 记 为 记 . 和 所 r， 而 S， 和 T 都 
满足 定 邵 和 13 的 条 件 ， 则 后, 对 Osn 的 渐 近 相对 效率 ， 记 为 


.*191.。 


ARE(B ,0 下) ,等 于 五，( 刁 )/ 下 2 三 )， 基 等 于 用 9 和 了 去 检验 
假设 6=0 时 的 渐 近 相对 效率 ARE(S,T， 政 ) 。 于 是 前 面 讲 过 的 
有 关 ARBE(S,T; 丈 ) 的 一 切 ， 都 可 移 于 此 处 。 这 个 定理 也 印 证 
了 本 毁 开 闫 处 所 半途 的 那个 论点 : 即 我 们 可 使 用 非 参 数 性 的 方法 
构造 出 8 的 一 些 点 鸽 计 , 它们 针对 不 同 的 总 体 分 布下 各 有 其 优越 
性 。 一 旦 我 们 对 政 有 所 了 解 ， 就 可 握 以 选 定 一 个 适当 的 估计 

总 结 前 面 有 关 检 验 、 区 间 估 计 和 点 估计 的 讨论 看 山 ， 记 有 关 
于 渐 近 条 对 效率 的 定义 ， 最 后 都 归结 为 Pitman 的 4KE. 由 此 
我 们 相信 : Pitman 的 4 及 五 确实 抓 着 了 六 样本 效率 的 实质 所 在 ， 

四 、 位 置 参 数 的 点 估计 

设 芝 ,。 2 Xn 和 Ys Ys 是 从 连续 分 布 FCX) 各 
F(x 一 8) 中 抽出 的 简单 样本 ， 要 估计 86 。 用 HL 方法 估计 8 的 
步 又 及 亩 得 估计 量 的 性 质 ， 与 对 称 中 心 估计 的 场合 完全 相似 。 故 
以 下 只 把 有 关 步 又 和 结论 列 出 ,建议 读者 自己 把 所 有 细节 补 出 来 。 

1, 找 统 计量 T=7 (Xs Yi ss), 游 足 条 人 性， 

《1》 当 8 一 0 时 ， 了 工 的 分 布 关 于 某 点 < 对 称 ， 上 已 知 且 与 F 
无 关 。 

《2)》 对 任何 实数 Cy,Yng si (XI Mrs 十 
8 ,yng 十 8) 作为 8 的 画 数 ， 是 非 降 的 ， 

2. 定义 B=0(RL, ,Ins 了 1 =—1 ,2, 如 下 4 

8 一 supfe:T(R , Xs Yi—G, .Ys 4c}, 

b,—inf{a: TOR ,KY GY Ne}, 

3， 用 如 天 ,… Kn Yi ) 估计 89。 

例如 ， 取 了 = 列 ilcoxon 秩 和 统计 量 ， 刚 易 见 条件 1(1) 和 
1(2) 都 满足 ， 且 可 算出 

6=med{¥Y sy— Fs ly I ol Rs 《4.192) 
上 式 右边 是 1 个 数 {Ys 一 壮 } 的 样本 中 位 数 。( 4.192) 的 证 
流 留 给 读者 。 
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上 面 定义 的 HL 估计 有 性 质 
1。 平移 同 变 性 ， 对 任何 常数 4 有 
三 tA, ,Yt a) 
一 和 (Xe 了 十 G 
2. 车 统计 量 荆 除 满足 条 件 1(1)、1(2) 外 ， 还 满足 ，， 
3” 对 任何 和 Yo 14,"… :Yng 有 
TO— Xs — Xn — Yi — Yno) 
—2c—T{(tiy Nn Vis s Yno) 
2” 对 任何 常数 4 有 有 
Txtas Xait Gy Vi a Yn i) 
= Xs Nes Vi Yr) 
又 分 布 函数 下 (x ) 关于 某 点 对 称 ， 则 6 的 分 布 关于 8 对 称 ， 且 
站 一生 一 和 yi ng) 
关于 6 的 六 样本 人 性质， 成 立 着 与 定理 4.13 类 似 的 定理 。 
定理 4.14 记 =H4+hs。 把 9 的 HL 估计 记 为 名 又 定 
义 中 涉及 的 常数 记 为 c,。 若 统计 量 TZ 涉足 定理 4.11 的 条 件 ， 
且 1 省 天 全 co 0<1 1。 又 ca 一人 人 ,10 在 )， 与 丘 无 
关 。 则 当 妈 -> 时 有 
下 二 二 
NR BO -有 (0,(4C1 一 人) 下 2( 百 ))-1)。 《4.193 》 
根据 这 个 定理 ， 若 以 渐 近 方差 倒数 之 比 来 衡 基 两 估计 量 问 的 


新 近 相 对 将 率 ， 则 两 个 HL 估计 之 闻 的 渐 近 相对 效率 ， 正 好 等 于 
用 这 两 个 统计 量 所 作 的 对 0==0 的 检验 的 汤 近 相对 效率 ， 


3 4.6 CMzpHOB 检 验 与 人 KoTMoropoB 检 验 


CHDHOB 检验 在 本 书 开 篇 的 例 1'1 中 就 担 到 过 了 。 不 难 需 
让 ， 它 只 泪 及 样本 的 候 ， 因 而 本 质 上 是 一 个 秩 栓 验 ， 放 到 本 意 讨 
论 可 以 说 得 通 。 至 于 Konmoropoa 检验 ， 则 不 是 一 个 秩 枪 验 ， 放 
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到 本 章 ， 于 体例 不 合 . .可 是 我 们 不 好 为 这 个 失 验 设 专 章 ， 且 它 与 
CmnpHos 检验 ， 在 使 用 经 验 分 布 这 一 点 上 ， 有 其 共通 之 处 ， 故 
也 放 在 这 一 节 一 并 讨论 。 思 于 体 负 有 所 不 合 ， 也 顺 不 得 了 。 

一 、Cm#puo8 检验 

设 忆 3 和 了 分别 是 从 分 布 严 和 G 中 抽出 的 
简单 样本 ， 要 俭 验 假设 天 一 G 。 以 ,和 Cu 分 别 记 邢 
XY, 和 了 |，…， 了 ,的 经 验 分 布 通 数 ， 其 定义 见 (1:0 和 (1,5》 

( 改 央 为 认 ， 拓 为 如 )， 出 于 和 Co 分 别 是 上 和 GG 药 佑 - 

计 ， 知 当 原 殷 设 焉 寺 G 成 立 对 ， 丰 和 Go 应 接近 。 因 此 ， 阁 令 


Su 一 Sup_ [Fu (X)— Gu, (%)| C 4.194 > 
则 当 原 假设 或 立时 ，Sins 应 企 向 于 小 。 帮 以 
{Srna>C} (4-195 》， 


为 否定 域 的 检验 ， 是 “下 二 G ”的 一 个 机 用 的 检验 ， 

为 了 根据 给 定 的 检验 水 平 a 确定 临界 值 C， 需 要 定 出 在 原 
假设 成 并 时 ，Sais。 的 分 布 。 这 个 在 原则 上 不 难 。 因 为 易 见 , 在 
五 、C 都 连续 ,因而 以 概 举 1 在 合 样 本 车 , 六 sm 中 

结存 在 对 ， 统 计量 Snins 只 与 了 ，… ,了 ns 在 合 样本 中 之 秩 天 
…, 龙 ,。 有 关 (这 一 简单 事实 的 证 明 留 给 该 者 ) ， 因 而 可 利用 定 玻 
4*1 定 出 DB 的 分 布 。 例 如 ， 在 4 一 3 ， 和 == 2 的 场合 ， CR,, 


Rs) 以 等 概率 (各 - 寺 ) 耻 以 下 20 组 值 之 一 : 


(1,2)，(1;38)，(1,4)，(1,5),(2,3)(2，4) (2,5)，(3，47， 
《3。5): 4, 57， (2 1)， 3: 1)， 41) (51 3，2)， 0427 
(5,2):,(4:3),(5,3)， (5)4) 

与 之 相应 的 Ss, 之 值 分 别 为 ， 


1, ss a Cg i A Ee 1, 
3 2 8 3 3 2 3 3 

1，, 0 5 2 = 人 人 1 
3 -这 3 3 2 3 3 


得 此 得 出 在 原 息 设 户 ==G 成 立 且 到、C 处 处 连续 时 ， S53s 的 板 促 
分 布 为 


P(S: 一 1D) 一 二 ， P( Ss=)=2 三 ，P( Su 一 于) 一 


P( S= 工 )= 五 


对 一 般 的 2772， 原 则 上 没有 什么 困难 。 定 出 Sns 在 原 假设 下 的 
分 布 后 ， 临 界 值 C 即 可 根据 给 定 的 显著 性 水 平 a 定 出 ,往往 对 
某 个 特定 的 a( 如 a 一 0.05 ) 不 存在 常数 C， 使 当 玉 =G 时 恰 有 
.了 (Smm 之 C) 二 a。 这 了 时， 或 者 适当 调整 a 之 值 ， 或 者 实行 随机 
化 ，Harter 和 Owen 的 表 *Selected Tables in Mathematical 
Statisticsy»，Vol. 3 载 有 x 和 xz, 都 不 超过 100 的 情况 ， 也 可 参 
看 数学 所 概 统 室 编 的 常用 数理 统计 表 >. 

在 ?2 和 x 都 很 六 时 ,可 使 用 CMEpHoOB 在 1939 年 证 明 的 下 
述 极限 定理 ， 

定理 4.15 当 F==G 连续 ， 且 存在 1>>0 使 当 2 co，722-> 
co 时 ， 人 Rf RA FD Hf Hs < 则 当 i N00, Hs>00 
时 ， 厢 


) 717» Eg ; ; 
MTN Smna—— >K(X), | 《4'196 ) 


其 中 
0 多 当 XE Ey: 

K(x) -| EE( —1)‘exp( — 2i2x?), 当 x>0， 《4'197 ) 

这 定理 证 明 的 方法 有 好 几 种 ， 但 都 较 繁 ， 无 法 在 这 里 细 讨 。 

分 布 天 (x) 的 95 名和 99 名 分 位 点 分 别 为 1.358 和 1I.628， 故 当 

a 取 为 0.05 或 0.01 时 ，C 之 值 ( 当 2，?s 大 时 ) 可 近似 地 取 为 


1.858 和 -名和 a 或 者 1， 628 Vt 121 十 和 3 


OY 2 


on C0 6d 06 是 “面向 四 方 ? 的 , 即 一 
切 可 能 的 光 立 假设 ， 痢 在 其 考虑 之 列 ， 因此 ， 除 非 在 事先 对 可 能 
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的 对 立 假设 确 是 了 解 很 少 ， 一般 不 文 使 用 这 检验 ， 因 为 其 效率 登 
不 及 在 前 几 节 中 讨论 过 的 那 种 更 有 针对 性 的 检验。 但 如 我 们 事先 
知道 可 能 的 对 立 假设 是 
Y>X, 或 Gtx)<FCX) 对 一 切 x， 但 FG (4:198) 
出 ] 
Sin = Sup CF (X) — Guo (X)) ( 4.199y》 


蚌 一 个 合适 的 统计 量 。 有 趣 的 是 ， 在 原 很 设 户 二 GG 成 立 之 下 ， 
wd 的 极限 定理 的 形式 要 简单 得 多 ， 

定理 4'16 设 定理 4.15 的 条 性 都 满足 ， 则 当 nn, 一 20，Ni -> 
co 时 ， 有 


1 1 人 
V 7 十 32. Sino — >K*(xX), {4:200 » 
其 中 
0， 当 XD; 
EK*( = 一 ~. ‘ . 5 
x) 人 si 4.201 》 


分 布 开 "的 100(1 一 @) 兄 分 位 点 为 () Joz 二) ” 由 此 ， 当 
和 #2; 都 歼 大 对 。 x 给 定 的 水 平 a 可 到 以 
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{Sim>Y (be 二 ) } 
为 害 定 域 的 检验 , 当 41 ,11。 Ee 
一 、KHoAM070poB 和 检验， 理论 分 布 已 知 时 ， 
设 访 ,,…， 区， 是 从 某 总 体 中 抽出 的 简单 样本 ， 要 据 以 检验 
假设 
吾 : 总 体 分 布 为 五 ， (4.202) 
紫外 下 为 一 已 知 分 布 ， 常 称 为 理论 分 布 。 这 是 因为 ， 分 布下 往往 
是 根据 荣 种 理论 、 学 涪 之 下 应 有 的 分 布 ， 而 了 ,… ,站 , 则 是 实验 
的 结果 。 检验 假设 《4.202)， 就 从 一 个 方面 检验 了 该 理论 或 学 说 
*。 196。 


否 正 确 。 在 实用 上 ， 也 常 说 实验 数据 卫 ,，,…, 义 。 与 理论 分 布 玉 
符合 得 怎样 ， 故 这 类 检验 也 称 为 拟 合 优 度 检验 。 
以 Fas) 记 和 到 。 的 经 验 分 布 函数 ,如 (4'202) 正确 ， 
则 ,作为 下 的 估计 ， 应 与 下 相差 不 多 。 故 引进 统计 量 


Sn= sup [Fx)— FX)| 《4*203 ) 


KonMmoropos 在 1933 年 引进 了 基于 5。 的 检验 ， 以 

{S,. >C} 《4-204 》 
为 否定 域 。 与 CMapEos 统计 量 不 同 ，Konmoropos 统计 量 3、 并 
非 秩 统计 量 。 但 不 难 证 明 : 在 理论 分 布下 处 处 连续 的 假定 下 , 当 原 
假设 (4.202 ) 成 立时 ，Ss 的 分 布 与 无关， 因此 C 之 值 只 取决 
于 样本 大 小 % 及 给 定 的 水 平 4a。 这 个 事实 的 证 明 留 给 读者 (习题 
21). 对 较 小 的 2，C 之 值 可 由 S， 的 精确 分 布 定 出 。 如 Miller 的 
tTable of Percentage Points of Kolmogorov Statistics>» (J. 
Amer.Statist.Assoc.15，(1956)， 访 。111~121)》 给 出 了 7 所 100 
时 ，w/ 3 Sn 的 各 罗 ，95 多 ，99% 分 位 点 。 也 可 参看 中 国 科 学 院 
应 用 数学 研究 所 概率 统计 教研 室 编 的 ‘常用 数理 统计 表 。 对 较 大 
的 nn， 可 使 用 Konmoropos 证 明 的 下 述 极 限定 理 ， 

定理 4.17 设 己 在 -= 所 二 co 处 处 连续 且 (4*202 ) 成 立 ， 

则 当 % 一 oo 时 有 


_ 
~ NS—>K(xY) 《4.205 > 

其 中 天 (%)》 见 《4*.197) 。 
与 CMzEpHOB 定理 一 样 ， 这 个 定理 也 有 好 些 记 法 ,但 没有 一 个 
容易 的 ,在 此 只 得 从 略 。 据 这 个 定理 , 当 水 平 取 为 a 一 0.05 或 0.01 
对 ,4-204) 中 的 临界 值 C 可 分 别 到 为 1.358/ M7 或 1,628/V 7 。 


Komworopos 检验 的 效率 如 何 ? 这 个 问题 有 一 些 学 者 研究 过 ， 
其 内 容 过 于 专门 ， 在 此 我 们 只 引述 几 条 结论 ,一 般 的 印象 是 : 这 
个 检验 的 性 能 是 好 的 。 
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1. 通常 用 于 检验 ( 4202 ) 的 检验 ， 是 六 拟 合 优 度 检验 ， 
一 般 说 来 ，Konworopos 检验 与 检验 相 比 , 在 下 述 意义 上 处 在 
有 利好 位 : 设 G 为 一 分 布 而 记 4=_sup |F(x) 一 GCx)] ,4 可 视 


为 分 布下 、G 之 间 航 距离， 有 装 称 为 一 致 距离 或 Do 距 
离 。 如 果真 正 的 理论 分 布 为 G， 则 假设 (4-202 ) 不 成 立 。 则 我 
们 希望 否定 原 假设 厂 ， 否 定 的 概 崇 人 钝 大 傅 好 。 或 反 过 来 说 ， 在 具 
有 一 定 的 藻 定 概率 ( 即 检验 的 功效 ) 之 下 ，4 愈 修 愈 好 , 因 4 僵 
小 ， 表 明 该 检验 能 分 辨 出 更 小 的 〈 与 五 的 ?差异 。 在 这 方面 
KomMoropoa 检验 优 于 妇 检 验 ， 例 如， 在 74=100，a 二 0.05 而 
功效 为 0.5 时 ，Konmoropos 检验 能 分 辩 的 4， 可 达到 xX 检验 能 
分 辩 的 4 的 二 分 之 一 〈 这 只 是 一 个 大 致 的 结论 。 因 为 无 论 是 
”Konmoropos 检验 还 是 从 检验 ， 其 功效 都 不 仅 依赖 于 4) 。 

Konmoropos 检验 与 xX? 检验 相 比 还 有 其 另外 的 优点 , 即 交办 
验 要 把 〈《-=e，=。 ) 分 为 若干 个 区 间 , 区 间 数 自 及 起 迄 点 都 有 任意 
性 。 故 同一 组 数据 ,由 不 同 的 人 胃 x 检验 去 做 ， 可 以 由 于 分 组 不 

同 而 得 出 处 同 之 结果 ( 即 一 个 否定 百 ， 一 个 接受 百 ) , KonmoropoB 
检验 则 没有 这 个 随意 性 ,另外 ， 当 丸 较 小 时 ，KoAmoropos 检验 
注 临 界 值 C， 是 由 在 原 假设 下 5S。 的 精确 分 布 算 出 ， 有 吉 可 查 而 
比较 准确 。 检验 当 2 不 大 时 ， 精 确 分 布 未 知 ， 而 失 验 的 临 界 
和 值 也 系 由 其 极限 分 布 算出 ， 故 只 是 近似 前 。 

2， 还 可 以 合 Koxmoropos 检验 与 在 特定 情况 下 的 最 优 检验 
相 比 ， 看 其 差距 如 何 ， 以 此 得 则 其 优良 性 的 某 些 概念 。 举 一 例 言 
之 。 设 4202 ) 中 的 理论 分 布 天 就 是 标准 正 态 分 布 6(*) ， 而 设 
想 可 能 的 对 立 假设 是 @(x 一 09) ，g>>0。 这 问题 可 用 Konwmoropos 
检验 做 ， 也 可 用 通常 的 检验 做 ,其 水 平 a 的 否定 域 为 WwW 天 下 > 
We， 于 一 局 所 /。 在 假设 检验 理论 中 证 明了 ， 在 所 设 情况 下 ， 
这 个 # 检 验 是 水 平 a 的 一 致 最 优 检 验 。 在 6=1.5 时 ，Konmo- 
ropos 检验 的 功效 为 0.895 (取水 平 w=0.05， 下 同 ) ， 而 w 检验 
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- 的 功效 为 0.9568， 二 者 相差 0.061. 就 是 说 ; 因 因 Komxoro5o58 检 
验 而 损失 的 功效 ， 也 不 过 6 多 多 一 点 。 

三 、Kon0r0po8 袜 验 ， 理 论 分 布 带 参数 时 . 

在 实用 问题 由 ， 人 们 党 希 望 用 正 沪 模型 去 分 析 试 验 数据 。 但 
有 了 时 并 无 充分 把 握 肯 定 ， 试 验 数据 确 是 来 自 正 态 分 布 ， 而 需要 朋 
过 适当 的 检验 去 判定 。 这 问题 与 《4:202 ) 的 差别 ， 在 于 在 原 假 
设 咎 并 未 规定 理论 分 布 的 确切 形式 ， 而 只 要 求 它 是 某 一 分 布 族 的 
一 员 ”这样 ， 此 处 的 检验 问题 可 提 为 ， 根据 从 -一 总 信 中 抽出 的 秽 
单 样本 下 …* 和 去 检验 假设 

态 ;， 总 体 分 布 为 CR G2) ;对 某 个 LE( 一 2,%) 和 20。 

CC 4-206 ) 

一 般 ， 我 们 有 一 个 包含 实 参 数 向 量 8 的 分 布 族 1f。:0E€6} .要 

吾 ， 总 体 分 布 是 玉 ,， 对 某 个 06E8 ( 4.207 ) 
直观 上 看 ,前 面 二 段 中 的 方法 容易 推广 到 这 里 ， 先 用 洋 本 Xi，…， 
人 ， 对 参数 0 作 一 估计 ， 以 B=.CX, >. ) 记 全 计 基 ， 如 果 
样本 确 系 抽 自 分 布 族 { 了 ff,:0€8}， 网 6 接近 9, 因 而 人 
六 的 经 验 分 布 F.CX) 应 接近 于 F(X)。 故 令 

To。 一 _Sup [F(X)— Fe, Cr) | 


诉 当 T.>C (4.208 > 
时 否定 原 假设 (4.207)。 便 如 当 {F。:0E€6} 为 正 态 分 布 族 时 ， 
可 用 样本 均值 互 和 样本 方差 S* 去 人 入 计 分 布 族 中 的 参数 4 和 og7， 
然后 计算 


T= sep |r. -0 (eT)| 


下 为 入 (0,1) 的 分 布 。 当 了 ,之 C 时 否定 原 假设 . 

这 在 形式 上 好 像 只 是 (二 ) 段 的 修 单 排 广 ， 实 际 上 问题 复杂 得 
多 。 问 题 就 在 统计 量 TT, 的 分 布 上 。 在 理论 分 布 完全 已 知 时 ， 
《4'203 ) 所 定义 的 统计 量 >， 在 五 连续 时 ,为 “分 布 无 关 " 的 - 此 
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(4.209 》 


处 则 不 然 ，7。 在 原 根 设 之 下 的 分 布 ， 一 依赖 于 8 的 估计 量 6 如 
向 政 。 邵 在 (4.209 ) 中 ， 你 也 可 以 用 样本 中 位 数 14 代 至 ， 所 得 
统计 量 的 分 布 不 同 。 二 优越 于 理论 分 布 族 。 如 理论 分 布 族 为 正 态 
族 ， 为 负 指 数 族 ， 为 Cauchy 分 布 族 时 ， 产 生 的 统计 量 T。 之 分 
布 不 同 .第 三 ， 了 还 可 能 依赖 于 参数 0 之 具体 信 , 如 果 情 况 确 如 
些 , 刚 在 给 定 水 平 %« 后 ,可 能 无 法 定 志 (4-208 ) 中 的 常数 "C ,使 检 
验 具有 水 平 4a。 另 外 ， 了 7 了 的 羽 限 分 布 也 可 以 做 束 于 此 三 者 ， 而 
县 很 准 求 。 例如， 即使 对 最 重要 的 正 访 分 布 族 ， 内 (4*209) 定 
义 的 统计 量 v Th 的 极 眼 分 布 虽 丰 在， 但 很 不 易 求 . 
但 答 易 证 明 ， 只 要 总 体 分 布 族 确 是 正 态 族 ， 测 (4.209 ) 所 
定义 的 了, 的 分 布 ， 并 不 枯 环 于 未 知人 参数 4 和 o， 因 此 原则 
上 可 宏 岂 常数 C ,使 检验 人 《4.208 ) 有 给 定 的 水 平 a。Lilliefors 在 
1967 年 用 随机 模拟 法 在 2 较 小 时 ， 对 a=0.05 和 0.01 定 出 了 临 
田 值 CC， 如 下 霄 所 未 ( 表 上 出 给 出 的 是 100C 之 值 》， 
五 5 6 7 8 9 10 11 12 13 
.05 33.7 31.9 30.0 23.5 237 .| 28.8 24,9 24.2 23。4 


0.01 40,.5 36 .4 24.8 33,1 231.1 298.4 23.4 27.5 26,.8 
位 14 15 16 17 18 19 20 25 30 


0.03 22.7 22.0 21,.3 20,6 20.D 19.5 19.% 17.3 16.1 
0.01 | 26.1 25.7 25.0 24.3 23.9 23.5 23.1 20.0 18.7 
4 


在 #4 六 30 时 ，(4:'208) 中 的 C 可 近似 地 到 为 0.866/VMUX《 相应 
于 40.05) 或 1.031 /WV 7 二 (要 记 于 a 二 0.01)。Lilliefors 在 其 
1967 年 的 工作 ( 见 了 .Amer .Statist: Assoc. 62 (1967)，p,399 一 
402 ) 中 , 还 把 这 检验 (用 于 正 杰 汤 合 ) 与 如 拟 合 优 度 检 验 作 了 比 
较 - 得 出 的 印象 是 ,iKommoropos 检验 优 于 YX? 检验 。 另 外 , Step- 
hens 在 1974 年 也 提出 了 C 的 一 个 较 好 的 近 伺 值 , 为 09,895/ 1。 
Ca 二 0.05) 和 1.035A1，。(a= 二 0.01), 其 中 7 一 ww 天 一 0.01 十 
0.85/M x, 
注 正 态 族 外 。 另 一 个 重要 的 分 布 族 是 以 
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fo ne "lx>0), 0>0 4.210 ) 


汶 密 度 的 负 指 数 分 布 族 . 8 作为 这 分 布 的 期 望 ， 用 样本 均值 了 去 
入 计 。 于 是 ,为 了 检验 * 样 本 污 ,,…, 太 ,来 自分 布 族 (4'210))” 这 
个 假设 ， 计 算 

T,= sup|F,(r)—(1-e" 3?)] (4-211 ) 
然后 在 ,>C 时 否定 原 假 设 ，Lilliefors 在 1969 年 也 兽 像 对 待 
正 态 族 形 样 。 通 过 随机 模拟 的 办 法 去 决定 师 界 值 C。 后 来 ， 到 
I975- 一 1976 年 ，Durbin 和 Margolin 等 得 到 了 (4,2311) 所 定义 的 
,在原 假设 成 立 之 下 的 精确 分 布 ， 因 而 可 用 来 决定 C 之 值 , 可 
参看 Durbin 在 kBiometrikay62《 1975) 妨 .5 一 22 中 所 提供 的 表 。 
当 料 本 大 小 1 充分 大 时 ， 对 x=0.05 和 0.01，C 之 值 可 近似 地 
取 为 1.075/ MA 及 1.27d/] MN、 


习 题 


4~1 设 4 和 …, 和 是 从 一 维 连 续 分 布 中 抽出 的 简单 祥 本 ， 
所 为 性 ; 的 秩 ，2 二 1,… NN。 试 求 五 ( 民 ] 并 ,一 4) 给 定 。 分 
zi :=1 靳 工夫 1 两 种 情况 做， 

4—2 设 全 :mn 和 | 下 5 2 sn 分 别 是 从 一 维 连 续 分 布下 
和 CC 中 手册 的 简单 样本 ， 昌 会 样本 代 ) Yi,… 了 Ys 和 柑 瑟 
独立 。 以 看! 记 六 ,在 合 样 本 中 的 秩 。 试 求 如 ， 的 分 布 。 本 题 说 
有 明 ， 在 样本 奈 独 立 辐 分 布 时 ， 牧 的 分 布 很 复 克 ，。 

又 ， 在 下 各 GG 分 别 是 (0,1) 和 (0,2) 区 间 内 的 均 勾 分布 
持 。 计 算数 字 结 采 ， 

4-3 试 由 定理 4.3 推 出 定理 4.2。 

4-4 验证 以 下 两 个 钢 子 ， 它 们 说 明 ，。 若 定理 4:4 的 条 性 (1) 
和 (2) 那 御 有 一 个 不 成 立 ， 则 定理 的 结论 可 以 不 成 立 ， 

好 。《 Cn Con) 一 《人 (和 一 1)， 一 1 一 1 一 1)， 虽 (X) 一 4 条 
人 性 (1) 不 成 立 ) 。 算 出 (Za 一 上 )7cw 的 极限 分 布 的 形式 . 


"。 2091T。 


b. Ca sa) = 0, 01, 1), [了 | 个 0, 其 余 为 


1(6[ec2 为 不 如 过 Ce 的 最 大 整数 )，9(4) 一 6 人，0< <1。( 条 件 
《2) 不 成 并 ) 

4-5 在 gV(1) 一 红 ，0< UL 这 个 特例 ， 由 定理 4.4 推出 定 
理 4.5. 

4-6 设 六 ，,…, 式 ， ed 下 在 0,1 两 


点 不 连续 ， 甘 跳跃 分 别 为 元 二 及 了 了， FF 在 其 他 点 连续 。 以 4 记 “ 不 


在 在 长 大 于 1 的 结 ” 这 个 事件 ， 计算 其 概率 PC(4). 
4-7 记 叶 同上 题 ， 但 设 严 只 有 唯一 的 不 连续 点 0 ， 其 跳 牙 
为 二。 记 
& - 0 疝 存 在 长 大 于 1 的 结 ， 
9 其 他 撒 涡 ， 
计算 < 的 期 望 与 方差 . 
4-8 写 出 Mood 检验 统计 如 ( 见 4.'2( 一 ) 段 ,2) 在 原 假 设 下 
( 且 假 定 总 体 务 布 处 处 运 线 ) 的 新 近 正 态 定理 .又 芳 把 Mood 统计 
量 中 的 计 分 改 为 { ;一 至 ) ， 怎 伴 在 定理 4.4 的 基础 上 ， 挫 出 这 个 
政变 后 的 统计 其 的 交 近 正 态 性 ? 
4 9 考 碰 例 4.6。 证 明 ， 适当 选 择 玉 ,ARE (W*,， 1 ; 证 ) 
可 以 取 任 意 大 的 值 。 
4-10 利用 公式 4:94) ,计算 2120) 一 2 时 的 检验 的 效率 因 ， 
er 及 此 与 Wilcoxon 检验 的 和 RE 
4-11 在 1 二 3， NN, 二 2， 信 /， 信 ,, 人 让 ，Y,， 工 : 独立 同 分 
布 ， 其 公共 分 布 函数 为 
0, XO 
X 0 委 X<I72 
多 十 1/3，17/2< 和 7Y<2/3 
i， 这 2/3 
+ 202. : 


F(X)= 


骨 平 均 法 定 结 内 变量 的 秩 。 以 WW 记 Wilcoxon 秩 和 统计 量 C(Y'， 
了 ,之 秩 之 和 )。 计 算 已 (不 = 8 ) (本 例 说 明 , 当 结 存在 时 ， 秩 统 
计量 分 布 的 计算 很 复 全 ) 

4-12 在 原 优 设 成 立时 ， 且 设 总 体 分 布下 处 处 连续 ， 计 算出 
《 4.109 ) 式 定义 的 多 样本 检验 统计 量 了 ， 的 期 望 , 并 据 计 算 结果 
说 明 情 数 因 了 (n 一 1)/D; 的 理 出 ， 

4-13 证 明 (4.119) 式 

4-14 沿用 《4:123 )》 式 中 的 记号 。 令 

2 

证 明 ， 对 任何 7 ，3 委 了 扫 12，Y7 与 (YY is)》 狐 立 。 册 
此 立 划 推出 ，F Fw 相互 独立 。 利 用 这 后 一 结论 证 散 
(4.125)。 

4-15 在原 假 设 成 立 之 下 , 计算 (4'131) 定 义 的 统计 量 色 , 的 
期 望 ， 以 此 说 明 哟 数 因 子 124/ (94C74 十 1 ) 的 理由 . 

4-16 设法 把 (4.139 》 的 了 T， 表 为 4 个 iid, 芭 时 之 和 ， 因 
.而 证 明 《4.141)， 

4~17 在 84.3，( 二 )4 中 ， 设 在 异型 

Xuy=Hitoatphrteyss f=1 ,Hf =1, ,nN 

站， 所 有 的 ey 独 并 同 分 布 ， 其 公共 分 布 连 绕 ， 且 原 候 设 4 二 … 
一 am 成 立 。 以 2 记 让 和 二 太一 六 1 在 {XX 人 :二 4， 
7 了 二 1,…, 好 } 中 的 秩 ， 则 虽然 {在 和} 并 非 独 立 团 分 布 ，{ Rw: 5 二 
1 -19 了 取 (1，2，…35222 ) 的 任 一 置换 的 概率 仍 为 
1/《9224)!  。 利 用 这 个 事实 ( 先 证 明 这 个 事实 ) 推 出 54.143) 。 

4-18 证明 例 4.12 中 的 统计 量 WW* 在 8=0 时 的 分 布 关 于 
(十 1) /4 点 对 称 。 

4-19 证 明 〔(4"]192 7 式 

4-20 证 明 位 置 参数 的 HL， 和 估计 的 平移 局 变性 等 两 个 性 换 
人 《号 在 定理 (1:14) 之 前 )， 

4-21 证 明 , 在 原 假 设 成 立 县 总 体 分布 处 外 连续 时 ，. 


“= 203» 


Konmoropos 流 计 量 《 4:203) 的 分 布 确 与 下 无 关 . 并 算出 当 % 二 2 
时 这 分 布 的 确 场 形式 ， 

4-22 设 总 体 分布 天 为 离散 分 布 ， 其 在 0,1 两 点 处 的 概率 都 
是 二 。 问 在 原 假设 成 立 之 下 ， Kormmoropos 统计 量 的 确切 分 布 如 
何 ? 又 问 在 这 一 特 球 情况 下 ，Konmoropos 检验 与 刀 氢 合 优 谋 检 
验 的 关系 如 何 ? 

4-23 ”证 明 ， 当 原 假 设 成 立 ( 即 总 体 分 布 为 正 态 NN(1,0*:) 》 
时 ，/ 7 的 极限 分 布 其 中 TT, 出 (4'209) 定 义 ,， 与 # 种 
0? 无 关 。 
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第 五 章 ”置换 检验 
8 51 基本 概念 与 例子 


置换 检验 是 条 件 检验 这 个 更 一 般 的 概念 的 特例 ， 但 也 是 最 重 
训 和 应 用 最 广 的 特例 ， 因 此 我 们 先 得 把 “条 件 检验 是 什么 ”这 个 
问题 你 琶 清 楚 . 

让 我 们 先 看 一 个 例子 。 

在 $4.4 的 一 段 中 ， 讨 论 过 利用 游程 去 答 验 随机 性 的 方法 ， 
在 样本 XX,,"…, 关 ,内 取 0、1 这 两 个 信 时 ， 以 6 记 序 列 关 ,XX。…X。 
中 ,1 游程 的 个 数 。 当 小 于 某 个 C 时 ， 就 否定 原 假 设 .为 了 找 出 
C， 按 照 假设 检验 的 一 般 步 又， 应 先 确定 在 原 假设 下 的 分 布 ， 
当 原 假设 成 立时 ， 议 1,…, 太 ,为 独立 同 分 布 ， 其 公共 分 布 为 

PAI= 1)=p, Po( 人 一 0) 一 1 一 力 0<pE1l, (51) 
此 处 力 未 知 ， 故 原 息 设 下 不 止 一 个 分 布 ， 而 是 包 食 一 个 实 参 数 尹 
的 一 族 分 布 〈《 5-1) 。 当 中，…;X。 中 恰 有 加 个 1 时 、 事 作 (一 
} 的 (条件 ) 概率 已 在 《4.153 ) 中 求 得 ， 现 记 为 9(&i20 在原 
假设 下 事件 { 才 ，…; 汉 中 有 形 个 荆 } 的 概率 为 ( 吕 ) 力 "(1 一 加 ” 
于 是 ， 由 全 概 府 公式， 得 到 在原 假设 下 的 分 布 为 

P(E=b) = EB {A )Bn—p)" "gklm), ho1,2,. sn 

(5.2》 
此 分 布 与 轧 有 关 . 我 们 无 法 定 出 一 个 常数 C， 使 对 一 切 p EC0,1] 
有 Pot$<C) 一 qa， 即使 用 蝴 机 化 检验 法 也 不 行 . 诚然 ， 我 们 可 以 
找到 一 个 随机 化 检验 ， 即 “ 当 《> 1 时 接受 原 假设 ， 当 《= 1 时 ， 
以 概率 1 一 a 接受 原 假设 ", 这 答 验 正好 有 绘 定 的 水 平 «(请 读者 入 
已 验证 )， 但 这 个 检验 显然 没有 什么 用。 问题 根本 困难 之 点 在 于 
205。 


当世 很 小 时 ,有 两 种 可 能 ， 一 基 原 假设 确 不 成 立 ( 有 菜 种 相关 性 导 
致 上 很 小 ), 一 是 原 假 设 其 实 成 立 , 只 是 由 于 《5'1) 中 的 力 很 接近 
0 也 1， 使 0,1 中 有 一 种 符号 数 上 很 少 ,从 而 导致 < 很 小 ,我 们 无 
法 知道 ， 上 述 两 种 可 能 性 那 一 种 是 现实 的 ， 因 而 无 法 判定 赴 否 该 
人 省 定 原 假设 . : 
但 在 84.4 的 -- 有 段 中 的 讨论 中 ， 并 未 出 现 上 述 困难 . 原因 在 
于 :我们 用 一 种 条 什 化 的 手续 ， 绕 过 了 《5'27，。， 邵 绕 过 了 《在原 
假设 下 的 “无 条 件 ? 分 布 ， 具体 做 法 是 这 样 的 ,一 经 得 到 样本 
Xi 我 们 先 把 其 中 1 的 个 攻 ! 数 出 来 . 设 9%=5a， 记 
型 一 1 一 252。 我 们 把 直到 于 作为 一 个 条 件 ， 而 去 求 E 在 这 个 条 件 
下 的 条 件 分 布 ， 这 就 是 (4.153)。 在 此 非常 重要 的 一 点 基 :， 尽 管 < 
的 无 条 件 分 布 (5'2) 依 赖 参数 思 ， 这 个 条 件 分 布 则 不 依赖 它 .我 们 
交 人 条 件 分 布 去 定 否 定 域 的 临界 值 C, 则 C 扶 说 了 对 的 依赖 ， 
具 到 决 于 水 平 4 及 # 之 值 Wti。 这 样 , 该 检验 在 任何 条 件 {7 二 zp,} 
下 都 有 “条 件 水 平 ”a， 因 此 其 {无条件 ) 水 平 也 是 a. 要 注意 的 
在 此 CC 已 不 是 -一 个 仅 由 a 决定 的 常数 ， 它 还 和 # 的 取 值 有 
关 ; C=C07,&}. 因 此 ，C 也 是 一 个 综 计 量 . 
广 一 变化 不 止 是 形式 上 的 ， 而 是 有 其 实 什 内容， 在“ 无条件 
检验 ”中 ， 否 定 域 临 界 值 C 要 求 是 一 常数 ， 因 此 它 无 法 分 辨 前 述 
.两 种 情况 好 到 底 是 由 于 下 相关 还 是 由 于 PP 太 接近 0 或 1 诉 导 
至 很 小 ， 在 此 则 不 然 ，C 的 界限 不 固定 ， 要 看 序列 闫 ,…, XX， 
中 1 的 个 数 而 定 ， 如 1 的 个 数 接近 4/2， 则 驻 定 得 大 些 . 车 1 的 
个 数 太 少 或 太 多 ， 则 己 定 得 小 些 、 这 样 ， 在 这 一 “条 件 化 ”的 运 
- 作 中 ， 我 们 已 把 尹 值 是 否 接近 0 .1 的 影响 考虑 进来 了 . 
总 结 一 句 . 在 84.4 的 一 段 中 的 检验 ， 就 是 以 统计 量 & (1 游 
. 程 个 数 ) 为 基础 ， 并 在 统计 量 #7 的 条 件 化 (7: 基 ,,… ,了 ,中 工 的 个 
数 ) 之 下 的 条 件 检 验 . 条 件 检验 的 作用 在 于 : 在 原 假 设 为 复 台 的 
清 况 下 (如 本 例 )， 它 有 助 于 克服 因 检 验 统 计量 在 原 假 设 下 的 分 布 
-不 定 ( 印 依 赖 于 原 假 设 中 究竟 那 一 个 分 布 出 现 ) 而 上 常 来 的 决定 否 
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定 域 临界 值 C 的 困难 . 

如 果 单 从 形式 上 春 ， 你 可 以 说 条 体检 验 和 无条件 检验 其 实 是 : 
一 回 事 . 专 实 上 ， 引 进 一 - 个 统计 景 TCE #7) 和 集合 4 二 {U0): 
和 二 1,25 R00 ,1 7HUCC9,2)} ,上 述 条 件 检验 可 由 为 :. 

当 T 了 TE A 时 否定 原 假 没 ， 不 然 训 接受 ， (C53) 
由 于 总 是 一 个 只 依赖 于 a 的 集合 ， 并 无 随机 性 ， 枚 检验 (5'3) 
也 了 束 还 通常 的 (无 条 任 ) 检 验 . 充其量 我 们 只 能 说 ， 这 检验 形式 咯 
复 关 些 ， 不 是 常见 的 {7<C} 或 1T>>C} 这 种 形式 而 已 。 

所 以 ， 条 件 检 验 与 无 条 件 检验 的 差别 不 在 形式 ， 而 在 于 引出 
检验 的 思想 .在 本 例 中 ,关键 之 点 在 于 引进 另 一 统计 景 # 并 以 它 为 
工具 ， 对 施行 条 侍 化 ， 这 种 思想 可 用 于 很 多 问题 ， 而 帮助 克服 . 
如 本 例 中 用 无 条 件 检验 而 产生 的 那 种 困难 ， 后面 我 们 有 很 多 例子 - 
来 解 娠 这 一 点 。 现 在 把 条 作 检 验 的 -- 般 定义 陈述 如 下 ， 

设 有 样本 革 , 可 以 写 简 草 样 本 站，,…', 尺 。， 或 由 几 个 简单 
料 本 组 成 的 全 样本， 也 可 以 有 更 复 厅 的 构成 总 体 分 布 记 为 到 。 
故居 可 以 是 简单 样本 夭 ，…， 天 的 公共 分 布 ， 或 合 样 本 中 两 部 分 
(或 多 部 分 ) 的 分 布 C 玉 ，G ) 等 ， 或 有 其 他 更 复杂 的 构成 . 设 多 
为 一 个 分 布 族 ， 原 假设 为 耳 : 太 C.F ,给 定 水 平 &。 

定义 5.1 设 (T,) 一 (TC 六 ),M(XX)) 为 一 统计 量 , 满足 条 
件 ， 芳 殖 成 立 ， 则 在 给 定 几 ( 半 )= mp 的 条 件 下 ，TACZ) 的 条 件 分 
布 内 依赖 于 区 而 不 依 粹 于 总 体 分 布 玉 . 找 统 计量 CM,a)， 使 
PT>CCM,o) Mp): 一 g， 对 用 的 任何 可 能 于 m( 因 为 工 在 给 - 
定 和 时 的 条 件 分 布 只 依赖 朋 的 给 定 值 ， 这 种 CC 存在 ) . 则 检验 . 

当 了 (人 革 )>>CCM(X),a) 时 否定 及， 不 然 就 接受 。 《5.4) 
称 为 原 假设 五 的 一 个 条 件 检验 ， 它 有 水 平 a， 

在 定义 中 为 确定 计 ,把 条 件 否定 战 号 成 T>C(CM,a) 的 形状 。、 
它 当然 也 可 以 有 7< CCM ,a) 或 其 他 更 复杂 的 形状 . 

从 上 面 游 程 检验 的 例子 中 看 到 ， 在 定义 中 涉及 的 两 个 统计 量 
了 相识， 了 是 作为 黎 量 与 原 假设 的 差距 而 引 壕 ， 一 般 是 基干 直观; 
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束 菜 奸 理 沦 或 甘 败 河 题 的 启发 ， 季 则 是 作为 施行 “条 件 北 ?而 特 为 
引进 的 ， 它 必须 适合 定义 中 的 要 求 ， 虹 的 引进 没有 一 般 的 方法 可 
言 , 恒 从 河 恶 的 形式 上 第 能 有 所 和 启发， 以 下 在 一 些 傅 子 中 会 苑 到 

前 面 说 过 ， 置 换 检 验 是 条 件 检验 的 特 何 . 其 特殊 性 ， 就 在 这 
个 统计 菠 且 的 形式 上 ， 

定义 5.2 六 在 定义 5-1 中 ，MM 是 通过 某 种 置换 手续 而 产生 
的 统计 量 ， 刚 检验 54 ) 称 为 置换 失 验 . 

改 置 换 检 验 并 非 唯一 特定 的 俭 验 ,而 是 一 类 检验 .其 多 样 性 就 
在 这 “其 种 ?> 置 拘 手续 上 ， 一 个 由 2 个 元 组 三 的 序列 ， 经 管 换 可 产 
生 214! 个 序列 .这 可 称 为 4“ 全面 ? 轻 换 ， 即 不 受 任 何 约束 的 置换 .在 
特定 的 问题 中 ， 出 于 和 需要， 可 对 施行 的 置换 诉 以 一 些 约束 ， 这 时 
能 产生 的 序列 就 没有 姑 ] 这 么 多 ， 见 以 下 的 例子 . 

例 5.1( 四 格 表 )〉 汶 虑 一 个 2X2 列 联 表 

Al A2 | 


B1 x1 X2 M1 


丰 ;B 是 一 总 体 中 的 个 体 的 两 个 属性 ， 各 有 两 个 水 平 , 4 和 4 
B11 种 B,. 现 婚 钒 观察 孜 个 人 个体， 发现 (A,B,) 一 类 的 有 闫 个 ， 
等 等 ， 要 闫 以 俭 验 “4,B 两 属性 独立 ”这 个 原 假 设 ， 

此 同 题 在 4， 如 两 属性 可 取 和 任意 个 术 平 的 一 般 情况 下 ， 曾 
在 84.4 的 二 段 中 该 多 样本 问题 的 方式 处 理 过 .这 种 处 理 把 “ 行 舟 ? 
或 “ 列 和 ?其 中 之 一 ) 锡 为 直 定 已 知 和 的， 改 在 革 种 意义 上 说 ， 不 拉 
为 一 个 条 告 检验 .可 大 那 正 的 向 法 念 须 乞 苦于 大 样本 分 布 . 此 处 几 
条件 检验 的 方法 ， 并 进一步 把 所 有 的 并,( 一 1 4) 都 视 为 随 
杭 的 ， 而 导出 糊 碧 (小 样本 ) 检 验 ， 这 个 方法 在 历史 上 源 于 RA， 
Fisher, 
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我 们 假定 。 如 麻 假 设 不 对 ， 则 A，B 属性 呈现 正 相关 .这 意 
恢 是 说 ， 当 B 取 Bi1( 足 标 小 ) 时 ， 有 4 也 更 倾向 于 取 4, (小 足 标 ) . 
B 取 BB, 时 A 也 居 向 了 于 取 A,。 这样 一 来 ， 若 以 P(4,1By) 记 当 B 
取 BJ 时 ,A 取 A, 的 条 件 竹 率 , 则 P(A411B,) 一 P(A11B,) 可 以 作 
为 衡量 原 假设 是 否 成 立 的 一 个 指标 ， 当 44,B 独立 时 , P(A4.1B,) 
二 PP(41|B,)= P(A41), 此 指标 为 0, 当 妇 , BB 有 正 相 关 时 此 指标 大 
于 0, 从 疼 上 数据 看 出 ，P(41|1B1) 一 P(A.1B,) 可 以 用 闫 /Mf; 一 
xX,/M, 去 悄 计 之 ， 页 从 形式 上 小 ， 眉 六 // 2 一 全 /M,>C 为 但 
定 域 之 检验 是 一 合适 的 检验 . 麻烦 的 是 ， 即 使 在 原 假 设 “44 ,已 独 
立成 立 之 下 ， 此 统计 量 之 分 布 并 不 唯一 确定 ， 而 取决 于 A,B 
的 边缘 分 布 

PCAD)=1—-P(A)=p, P(B)=1-—-P(B,)=4g (5.6) 
中 的 参数 p,g 但 是 

XN/M ~ XS/M,= HX, M MY/MM,. 

者 给 定 了 ad 和 内。， 则 必 , 也 随 之 确定 ， 因而 上 式 只 依赖 于 克 ，， 
且 随 怀 !: 之 增 减 而 增 减 ， 故 可 取 定 义 5.1 中 之 1 为 (2 Ms) ,7 
为 区 ,， 问 题 在 于 验证 ， 当 给 定 于 ,和 表 , 时 ， 六 ,的 条 件 分 布 不 
依 顿 于 (5.6 》 中 的 旋 和 4 这 不 难 验证 ; 


PraC i = 4,, My—ms) = 六 P(X,= i, KC—m—i 


让 4 二 Jy1s 一 2 9 有 4 一 7 一 1411 一 1 十 $f )。 《5*7》 
在 灌 假 设 成 立时 ，( 久 ,， 半 ,， 半 ，， 深 ，) 构成 多 项 分 布 ， 
Poo( 瑟 ,一 ci 一 1) d= (pq) il Pg) 


Cefczlcslcxl 
(pI) (PI) 
此 处 5=1 一 p，3= 二 1 一 9，G1… ,5 为 和 等 于 #4 的 非 负 整数 ,以 此 . 
代入 《5.7), 得 
Pm CM=m,, M,=1) 


SAP (PA PTE BO Mt 
rs OPI HI tL 


。209 。 


pngngnn( 2 这 (号 ) 人 2 下) 
一 办 ms 万 "- ragnag oa 开 有 
又 
Pp(X = kM= mM ,= i) 
= Ppt X= kk ,X=—m— bh, X= ~—k,X, 
=H—M— Hs+t k) 
_ 了 1 有 
RICH —R) 1 Cm — RR— I 一 93 十 六 ) | 
(pa Pa PI) DT)" "1 3+, 
由 以 上 两 式 得 
局 一 天 一 一 ia) 
= P(N ,= kM = mM = m0) Ppa N= Mg= 173) 
ee 
.此 式 与 上 ,4 无 关注 意 这 是 在 不 假设 成 立 的 前 提 下 。 这 一 点 不 要 
忘记 }, 因 而 符合 定义 5.1 的 条 件 - 找 C 一 CC072 ,ztsya)， 使 
RY A ee (5.8) 
然后 在 和 .>C(I Ma) 时 否定 原 假 设 . 这 个 条 件 检 验 在 原 假 
设 成 立时 确 雪 地 有 水 平 4， 不 管 (5.6 3》 中 的 p,q 取 怎 样 的 值 .如 
果 不 存 在 证 (458 成立 ， 则 须 修 改 % 之 值 ， 或 使 用 随机 化 手续 。 
例 5.2( 两 样本 问题 、 成 组 比较 ) 设 有 治疗 局 一 种 疾病 的 两 
种 药物 4 和 召 为 比较 其 优 劣 ， 收 集 了 了 即 一 和 十 za 个 患者 .随机 地 
从 中 挑选 兄 个 服药 4， 其 余 z 个 踊 药 如 .假设 治疗 效果 通过 其 项 
指 潜 体 现 . 2 个 服药 4 后 一 段 时 期 ， 量 出 其 指标 为 芝 ,。…, 六 ，,。 
服药 吕 省 扣 标 为 Ys,… 。 
问题 向 确切 统计 模型 ， 中 窗 作 的 假定 而 异 ， 以 下 我 们 将 分 别 
-考虑 三 种 可 能 的 提 法 ， 
‘sol0. 


来 白 -- 个 具 分 布 (x) 的 总 体 ， 而 了 !,… ,了 ws 是 来 自 一 个 其 分布 
{x 一 0) 的 总 体 ， 下 未 知 ， 0 为 米 知 实 参 数 . “药物 入、BB 的 疗效 
相同 ”的 原 假设 ， 归 结 为 90, 对 立 假设 为 9 才 0， 

此 问题 在 上 一 章 中 已 用 秩 方 法 外 理 过 ， 此 处 我 们 用 条 件 检验 
的 方法 去 处 理据 定义 5:1， 在 用 条 件 法 处 理 一 个 检验 问题 时 ，: 
要 引进 两 个 统计 量 下 和 42。 前 者 是 作为 衡量 与 原 假 设 差 距 之 指标 ， 
而 后 者 是 作 条 件 化 之 用 ， 就 目前 问题 而 言 ， 人 可 选择 为 了 一 工 。 
当 1T| 之 C 时 否定 原 假 设 , 可 是 即使 在 96==0 时 ， 了 之 分 布 仍 依赖 
下 ,因而 无 法 找到 常数 C， 使 对 一 切 下 有 Ps(|T|I>>C19=0)=a， 

为 说 明 使 用 条 件 化 即 先 择 册 之 方法 ， 要 引进 一 些 记 号 ， 首 先 ， 
仿 (Zi Zn) 二 (下 1， 六 1)， J Zn) = Yn) 
Z= (Ls Ln (Ne ,用 … 对 到 维 欧 氏 空 间 中 
的 一 点 共 一 (fyeyzp)， 和 定义 了 (2 一 名 wfm- 沪 2 7 2 这 
A 可 (2Z) 记 集合 

(2) 二 {ZZ4o) :sn) 跑 注 (1, ,7) 的 一 切 加 
软 上 < 上， 把 凡 (2Z) 中 的 #1 个 点 排列 为 Z,… ,ZO(N = 二 nn1 .注意 
ZZ 本 身 是 这 11 个 点 之 一 ) , 当 原 假设 9 一 0 成 立时 ，Z1,…, 2, 为 
独立 问 分 布 ， 故 在 给 定 及 (2Z) 的 条 件 下 ，2Z',… ,2Z' 下 中 每 一 
个 有 辕 等 的 概率 出 现 .由 此 可 知 ， 在 给 定 轴 (Z} 时 ，T(Z 的 条 
件 分 布 是 

PAOT(Z)=TLH) MLZ)=1N, 1=1,,N (59) 
《如 了 (2 中 ),…,TCZ 避 YY) 中 有 相同 的 ， 则 概率 要 合并 ) 这 个 条 件 
分 布 与 无关， 因而 适合 定义 5.1 的 要 求 ， 

现在 可 以 根据 《5.9), 把 使 用 (了 ,AM ) 对 原 假设 4=0 进行: 
条 件 检 验 的 步骤 列举 如 下 : 

1 由 乙 出 发 ， 经 一 切 可 能 的 置换 ,得 2ZD… DZ， 


二 下 可 以 把 竺 ( 忆 ) 定 义 为 Z1,…，Zn 的 次 序 统 计量 ， 这 形式 . 较 简 单 ,但 此 处 的 
定义 对 Z4 为 高 维 时 也 适用 。 
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2. 计算 六 个 值 1T(2001 一 1 和 ,把 它们 按 由 大 到 小 
:排列 为 看 之 t, 之 … 之 ty， 

3. 计算 入 a。 二 Na，a 为 给 定 的 水 平 .计算 TC(2). 车 |T(Z)| 
之 lxa， 则 否定 原 假 设 . 不 然 就 接受 原 假设 . 当 Na 非 整数 时 ， 
要 适当 修正 a， 

在 本 鲍 及 类 似 的 问题 中 以 上 步骤 可 简化 一 些 , 因 为 了 (GD) 之 
值 ， 其 实 只 依赖 于 Zn 的 最 后 22 个 分 量 究竟 包含 了 了 中 的 那 
些 分 量 . 芍 如 j 一 4， 7 一 3 ， 则 (1,7,2, 4，3，5, 6) 这 个 置换 与 
《7，4s1，2,5,6, 3) 这 个 早 换 所 导致 的 了 值 一 样 . 国 此 ， 最 冤 只 有 
(2 ) 个 不 周 的 个 值 ， 它 取决 于 置换 人 iin) 中 后 ns 个 元 构成 的 
子 集 .为 明 靖 恬 您 。 淮 一 个 数字 例子 . 设 妨 一 3， 入 一 2 一 
《1551.3,2.],2.4,2.7) 以 (7 了 12) 记 最 后 两 位 为 1 和 7 的 那 种 
置换 ， 则 对 一 切 可 能 韵 填 换 .T(Z40) 至 多 只 取 如 下 10 个 相 异 值 ， 

(1，2)， 个 值 为 15 士 1.3_ 21 十 3.4 十 2.7。 


3 一 1.000 
(1，3)， 了 T 了 信 为 一 1 0333 
人 了 全 为 上 5+2.4 1 3 十 2.1 二 2.7- 
(1, 5): 了 信 为 二 57 2 一 一 0.167 
(2, 3): 个 请 为 人 于 0.500 
(2, 4): T 值 为 -2 人 7 一 0.250 
《2，5)， 人 值 为 了 22 一 2 二 4 一 0.000 
(3, 4): TN 2 
(3，5)， T 值 为 2 22 一人 0667 
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‘(4,5); 3 


就 是 说 ， 当 得 到 样本 Z=(1-5, 1.3, 2:1，2:4, 2-7) 时 ,在 给 定 
J4(2) 的 条 件 下 ，7(2 ) 的 条 件 分 布 是 以 概率 0.1 取 上 述 10 个 值 
的 每 一 个 如 著 给 定 水 事 = 一 0.3， 站 由 此 条 件 分 布 ， 当 | 了 2)| 
字 0:667 寺 否 定 原 假设 . 现 有 了 了 (2) 一 0.917，17T(2)|==0.917 
90.667， 故 应 否定 产假 设 ， 

这 样 ， 我 们 在 不 对 总 体 分 布 百 作 任 何 假定 的 情况 下 ， 作 出 了 
源 假 设 的 一 个 检验 ， 其 检验 统计 量 在 原 假设 成 立时 ， 对 原 假 设 上 
芍 分 布 为 分 布 无 关 的 ， 在 某 种 意义 上 ， 这 一 检验 比 秩 检 验 更 为 一 
般 ， 因 为 此 处 无 须 假定 总 体 分 布下 处 处 连续 一 一 在 秩 检 验 的 场 
合 ， 当 允许 总 体 分 布 不 连续 因而 “ 结 * 出 现时 ， 需 要 把 结 统计 量 作 
为 好 (2 ) 来 实行 条 件 化 ， 才 能 达到 在 原 假 设 下 分 布 无 关 的 结果 . 

注意 在 本 例 中 , 作为 条 件 化 之 用 的 统计 量 M(2Z) 是 由 样本 ZZ 
产 过 一 切 置换 而 产生 之 集 . 凡是 这 样 构 造 的 条 件 检验 就 称 为 置换 
检验 ,这 在 定义 5.2 中 已 说 明了 . 

2. 现在 考 虞 本 问题 的 另 一 种 模型 . 刚才 讨论 过 的 模型 的 背 
景 是 : 参与 试验 的 4+74 个 患者 是 从 极 大 一 批 情况 基本 相似 的 忠 
者 中 随机 搞 到 的 - 这 个 航天 的 “患者 总 体 ”是 产生 分 布下 的 依 
据 . 

现 设 由 于 条 件 的 梁 制 ， 我 们 只 能 就 手头 可 获得 的 十 ns 个 
患者 做 试验 .它们 是 我 们 所 有 的 全 部 “试验 材料 ?， 其 来 历 因而 不 
能 视 为 是 从 一 大 总 体 中 随机 折 得 的 这样， 前 面 讨论 过 的 模型 就 
不 适用 . 

把 这 2 一 4 十 92: 个 患者 编号 ， 作 为 一 个 假定 ， 设 4、B 两 种 
药 在 每 一 患者 身上 的 效 采 之 差 是 恒定 的 ， 这 详 ， 车 和 患者 i 用药.4 
后 指标 为 4;， 则 如 他 不 用 4 而 用 B， 指 标 当 为 Cj 十 g。 现 从 这 
新 二 U1 十 hs 个 患者 中 随机 地 抽 下 7 个 让 他 们 服药 B， 虱 下 x 个 
摄 药 有 A，。 其 指标 值 仍 记 为 六 mA) 和 1,-… ,Yn,(B),Z= 
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《2 pp 一 (有 

在 灶 , 即 使 原 假设 9=0 成 立 ，Z1,…,Zs 也 不 是 独立 局 中 布 - 
但 其 分 布 为 : Z 取 (Q@,… ,Qn) 的 任 一 里 换 的 概 康 都 是 1/n!1 ,但 
在 9:.0 时， 由 之，…， rH 个 数 钢 成 的 从 合 ， 与 由 441，…， Qn 这 
4 个 数 交 成 的 集合 一 样 。 故 在 床 假 设 9 一 0 成 立时 ， 任 一 统计 量 
T(Z) 在 给 定 可 (ZY) (CM (CZ) 的 定义 同 前 的 条 件 下 ， 其 条 件 分 
布 . 仍 和 (5.9 ) 式 所 标示 的 性 质 ( 六 -32 )， 放 前 面 用 了 了 (2)= 
《Zi 十 … 士 Zw/ 一 (ZI 十 … 十 和 wu DA 而 作 的 检验 法， 一 字 
不 改 地 移 到 此 处 . 

这 两 种 模型 那 一 种 更 合理 ? 这 当然 要 看 样本 (2 个 患者 ) 是 . 
如 何 得 来 的 . 不 过 可 以 注意 ， 吊 使 样本 化 是 从 一 大 总 体 中 随机 抽 . 
来 ， 用 第 二 种 模型 丢 处 理 耻 不错 ( 反 过 来 则 不 行 )， 这 是 因为 , 在 
第 二 种 模型 中 ， 对 样本 的 求 源 堂 无 条 件 ， 故 即便 症 随 机 拉 来 的 也 . 
无 所 谓 . 而 且 ， 从 事实 的 角度 看 ， 往 往 是 第 二 种 异型 更 符合 情 
理 ， 因 为 在 做 这 类 试验 中 ， 往 往 具 能 “就 地 取材 2?， 而 未 必 有 机 会 - 
在 一 个 很 大 的 范围 内 去 隐 机 挑选 . 

顺便 说 一 名 这 第 三 种 民 型 更 好 地 体现 了 Fisher 的 试验 设 
计 三 原则 之 一 随机 化 原则 . 事实 上 ， 正 是 随机 化 原则 的 使 用 
《中 从 个 目 痢 中 “随机 地 " 排 选 2 个 服药 吾 这 信 手 续 ) ,赋予 统计 
车 人 (ZZ) 一 定 的 概率 分 布 ， 因 面 吕 能 用 统计 的 方法 去 处 理 之 . 如 
果 不 用 随机 化 ， 则 我 们 无 法 羯 断 ， 了 平均 与 天 平均 之 间 的 差异 ， 
宽 竟 是 因 A，B 的 差异 而 来 ， 还 是 由 于 个 体 之 闻 的 大 异 而 来 . 至 
于 第 一 -种 便 型 ， 其 随机 结构 ( 体现 在 分 布 R(X) 及 F(x 一 09) 中 》 
已 由 样本 是 从 一 个 极 大 的 总 体 中 手 取 这 个 背景 而 确定 了 . 在 这 个 
背景 之 下 ， 看 不 出 从 已 有 的 7 个 患者 中 再 用 随 负 化 方法 去 搞 45 
个 一 状 有 何 作 用 ， 因 为 它 未 在 原 有 的 随机 化 结构 上 添加 任何 新 东 


全 走穴 一 定 社 意 到 ， 在 这 第 二 种 模 租 下 ， 当 原 假 设 成 立时 ， 好 (2Q) 并 无 随机 性。 
故 了 (2 在 缠 定 M(2) 之 下 的 条 性 分 布 ， 苑 等 于 却 (2 ) 之 无 条 件 分 布 ， 所 以 ， 在 这 模型 
下 作 的 置换 检验 ， 并 无 条 件 检 验 的 气味 ， 
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西 ， 

这 后 而 一 点 也 就 是 很 多 古典 方差 分 析 模 型 之 难于 自圆其说 的 
所 在 . 拿 常见 的 随机 区 组 设计 来 说 ，?% 个 品种 在 2 个 区 组 ( 每 区 
姐 包 售 开 小 区 ) 中 施行 随机 化 ， 模 型 是 

惟 一 上 十 Ci 十 十 Bi 了 一 1 I, =, vs (5°10) 
23303 分 别 为 品种 : 和 区 纽 7 的 效应 至 于 区 组 内 各 小 区 ， 则 在 
”模型 中 假定 为 绝对 均匀 的 ,因此 在 (5.10 ) 中 ,并 无 体现 “小 区 效 
应 "之 项 .可 起 渡 然 同一 区 组 内 各 小 区 绝对 均 句 ， 那 么 在 区 组 内 施 
行 障 机 化 还 有 有 何必 要 ?对 此 ,一 自作 的 解释 是 :“ 尽 管 珊 一 区 组 内 各 
小 区 已 很 均匀 ,但 还 是 有 些 差 异 的 .为 防止 系统 偏差 ， 放 在 区 组 内 
施行 随机 化 云云 2. 些 说 显得 有 点 矛盾， 既 承 认 小 区 之 间 不 和 均匀， 
为 何不 体现 在 模型 中 ? 以 后 我 们 将 看 到 ， 在 类 似 于 上 而 第 二 个 模 
型 那 种 解释 下 ， 把 小 区 之 闻 的 盖 异 考虑 进来 ， 而 且 ， 《5:10) 中 的 
误差 项 ecf， 正 好 就 来 源 于 这 种 差异 ， 这 种 解释 就 显得 很 自 然而 
合理 。 

3. 本 问题 另 一 种 可 以 考虑 的 模型 为 ， 若 在 第 ; 个 患者 身上 
施 药 4， 则 其 指标 为 &i 廿 el， 若 施 药 B 则 为 41:+9+ei， 了 一 1 
2 。 这里，4, 或 4; 十 0 这 一 项 的 合 义 ， 与 2 中 的 模型 相同 ,而 
-B18s 为 独立 同 分布 的 随机 变量 ， 它 反映 了 药 的 疗效 中 与 患者 
个 体 无 关 的 那 一 部 分 ， 如 剂量 大 小 有 随机 性 波动 。 环境 因素 以 至 
测量 误差 等 ， 从 事理 上 分 析 应 该 说 ， 这 是 与 实际 情况 最 接近 的 一 
种 寞 型 。 从 对 称 性 考 卉 读者 容易 理解 车 仍 按 前 述 设计 ， 从 已 有 
的 2 位 患者 中 随机 挑选 2。 位 施 药 下。 而 保持 前 面 的 一 切 记号 ， 
则 站 给 定 (2Z) 的 条 件 下 ，T(2Z ) 的 条 件 分 布 仍 如 (5.9 》 所 示 . 
所 以 ， 明 然 模 型 变 了 ， 前 面 描述 过 的 条 件 检 验 步骤 ， 可 以 一 兴 不 
改 泄 移 寺 此 处 ， 

从 本 例 可 以 看 出 施行 置换 检验 的 一 个 实际 困难 所 在 ， 导 计算 
量 很 大 . 如 本 例 中 若 取 30 位 患者 ， 各 一 半 服 药 4 和 B. 则 需要 
计算 

<。 215 。 


(30)=5 5348880 


个 不 同 的 7 个 再 排序 ,车 7 二 一 50， 则 将 成 为 天 文 数字 ,为 克 
服 这 种 朵 难 又 须 务 授 于 极限 分 布 ， 下 两 节 将 处 理 这 个 河 题 ， 

例 5.3( 成 对 沁 较 试验 ) 为 伍 基 两 个 钊 ! 子 品 针 4 ,五 证 否 在 产 
量 上 有 显著 次 异 ， 选 择 24 块 大 小 形状 一 样 的 地 块 并 将 其 结 成 22 
组 ， 和 伟 组 两 块 。 在 分 组 时 ， 使 得 组 内 的 两 块 地 在 条 件 上 尽 可 能 接 
近 。. 不 闻 组 内 芍 池 上 条 件 可 以 有 较 大 闫 异 . 

在 这 组 内 各 自 独 六 地 谊 行 随机 化 ， 从 两 块 半 儿 -~- 块 用 品 称 
4， 竹 下 那 次 用 品种 召 。 拒 第 :组 内 用 品种 4 那 亿 地 的 谋 产 记 为 
萤 ,; 用 叫 种 B 的 型 证 为 了, i 二 1 一。 记 了 二 闻 一 生出 | 全 | 可 以 
作为 衡 旺 两 品种 是 否 有 差异 的 指 坏 : 当 ! 王 | 大 时 ， 膏 证 “两 品 箱 
产量 无 痊 异 ? | 至 于 这 界 时 如何 定 ， 则 要 看 到 怎样 的 统 
计 模 型 . 在 初等 教 本 中 ， a i 因而 在 
i 组 中 西 块 各 亩 产 之 闪 yee 1 说 分 是 6， 区 
缺 品 种 如 与 4 亩 产 差 的 理论 值 ， 各 好 是 于 宙 议 : 差 , 于 是 有 

YC—X,=0+e, 1 :=1," 

原 假 设 “ 品 种 无 差异 ”转化 为 a 又 进一步 假 定 21,… ,es 处 
立 网 分布 并 有 正 态 分 布 以 (0,a2)， 则 本 问题 可 以 用 熟知 的 “一样 
本 t 检验 ”去 处 理 . 

与 上 例 相 似 ， 这 个 模型 存在 一些 问题 . 一 是 车 不 假定 有 正 

楚 分 布 该 怎么 办 .这 可 以 用 秩 方 法 ， 例 如 符号 检验 或 Wilcoxon 符 
号 秩 和 答 验 去 处 理 。 另 一 个 带 根 本 件 的 问题 是 ， 往 往 同一 组 内 蔬 
个 地 顽 仍 有 些 营 异 ， 不 可 忽略 不 计 ， 假 定 为 绝对 均匀 不 合理 .而 
及， 既然 已 假定 为 绝对 均 色 ,在 同一 组 内 施行 随机 化 还 有 何必 要 ， 
这 是 本 模型 无 法 自圆其说 之 处 ， 

因此 ， 我 们 采取 类 似 十 前 例 的 模型 2 的 做 法 .每 一 组 内 两 块 
地 各 引子 一 值 4 和 Qi 其 意义 是 : 若 用 品种 4 , 则 这 两 块 地 的 军 - 
产 分 别 为 C 和 aia。 若 用 品种 召 则 分 别 为 tut 0 a+ 0. G0, 
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都 未 郑 ,它们 反映 地 反 本 身 的 条 件 ,人 往 分 组 时 我 们 要 使 两 块 节 的 条 
件 尽 可 能 均匀 ,因而 ci 和 ii 的 差距 尽 明 小 ,但 以 下 的 方法 并 不 依 
赖 这 一 一 点 。 不 过 ， A 落 分 纽 不 当 而 致使 sl 利 Adis 有 较 大 次 距 ， 将 
影响 本 方法 的 功效 。 
记忆 一 了 一 到 了 一 1 2。 设 想 8 一 0( 原 假 设 成 立 )， 
则 之; 只 能 取 iiz 一 2 和 ~C44s 一 444) 两 值 ， 究 竟 取 那 一 个 ， 则 溉 
看 在 第 i 组 内 施行 随机 化 的 结果 .出 于 各 组 独立 地 施行 随机 化 。， 


鼓 ZZ1"… ,Zn 独立 回 公布 ， 且 Zi 以 二 的 概率 取 a 及 一 0， 关 出 0 


一 Qn 一 Lu。 由 此 可 结 ， 存 给 定 集 合 

MM(Z)=={( 土 ZZ 1, 土 2,,…; 土 Zn) :十 号 取 一 切 可 能 } ( 5:11) 
的 条 件 下 ， 这 集合 的 2 个 点 中 每 一 个 点 有 同等 的 机 会 (概率 1/2") 
.把 (2) 中 的 京王 条 全 点 记 为 2 一 丈 
则 近 上 述 有 

P{TOZ)- TZOOIMZ)} SIN, t=1,%,N. (5.12) 
因 这 分 布 与 G40,4is 这 些 量 无 关 ，( 了 ,AM4 ) 这 一 对 统计 电 适 合 使 
esha 的 具体 步骤 列举 如 下 ， 

， 得 到 到 ,天 ， 一 1 天 后 ， 算出 Z;—Y ,一文 ,, 

es ,1 

2. 列 出 2° 个 点 (十 Zi; 土 有 ,一 , 土 Zw) , 深 它 排列 为 2D > 
Zm, N=2". 

3. 对 每 个 4 算出 了 CD) 一 2 的 z 个 分 量 的 算术 平均 ， 
一 1 把 这 六 个 值 的 绝对 值 按 和 由 大 到 小 排列 为 [>… 之 fy。 

4. 给 定 检验 水 平 4， 算 出 入 < 一 和 Na. 算出 | 了 (2) 上 (5 按 开头 
之 记号 为 ( 歹 一 至 | ). 若 |T(Z)| 之 fya， 则 否定 原 殷 设 . 不 然 就 接 
受 原 假设 ， 如 果 Na 不 为 整数 ， 则 需 调 整 4 之 值 ， 或 使 用 随机 化 
检验 法 

为 明确 计 看 一 个 数字 例子 ， 设 2 一 3， 在 三 个 组 内 试验 所 全 
久 和 下 值 分 别 为 
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X=5.1, Y=5.5; XA,=5.4, Y,=—=4,.9; 上 :一 5.2， 了 :一 5.1 
由 这 些 值 算 出 (Zi,Z,,23) 一 《0.4，-0.5; -0,1)。 由 此 出 发 产 
生 的 MtZ) 包含 8 个 点 ; 
Ze=(00,4, -0,5, -0.1), Z‘—=(0.4, -0.5, 0.1), 
ZI 一 (0.4，0.5，-0.1)， 2Z'0?=(-0.4, -0.5, -0.1), 
ZH=(0.4, 0.5, 0.1), 2Z‘%=(-0.4, -0.5, 0.1), 
ZO=(-0.4, 0.5, -0.1), ZS=(-0.4, 0.5, 0.1), 
由 这 8 个 点 所 标 出 的 区 (2Z' 站 ) 值 恢 次 为 
-0.087, 0.000, 0.267, -0.333, 0.333, -0.267,0.000, 
0.067, 
共 按 绝对 值 大 小 依次 排列 之 结果 为 
0.333，0.333，0.267，0.267，0.067，0.067，0.000， 
0.000 。 
若 取 a==1/4, 则 Na 一 Na=2, 上 内 有 在 |3| 之 0.333 时 才能 否定 4 两 
唱 种 无 差异 ”的 原 假 设 . 现 有 区 =-0.067，|31<0.333, 不 能 否 
定 原 假设 ， 
在 本 例 中 ，44 (2 ) 也 是 出 置换 产生 的 .不 过 这 个 置换 受到 限 
制 ， 它 不 是 在 原始 数据 《( 苹 ,, 了 1,…, 态 ,,Y。s) 中 任意 置换 ， 而 只 
能 在 一 对 内 作 午 殴 ， 即 Xi, 了 ,之 间 可 交换 位 置 ， 但 这; 和 和 广 ;, 或 
到 与 了 7， 了 二 ， 都 不 能 交换 . 从 这 两 俩 也 看 出 ， 当 在 试验 中 
施行 随机 化 时 ，&k(CZ) 如 何 产生 直接 由 随机 化 的 内 容 所 决定 ， 
在 上 上 例 中 1、2 两 个 模型 的 比较 上 所 说 的 话 ， 也 完全 适用 于 此 
候 ， 生 此 模型 下 ， 同 一 织 内 两 个 小 块 间 差异 的 作用 有 充分 的 体 
现 . 本 例 实际 上 就 是 区 组 大 小 为 2 的 完全 随机 区 组 设计 。 以 后 要 
例 5.4( 多 样本 问题 ， 一 元 方差 分 析 设 计 ) ”这 就 是 把 例 5:2 
中 两 种 药物 A4、B 的 比较 问题 ， 推 广 为 4 4。 等 < 种 药物 的 
比较 问题 ， 设 有 2 一 志士 … 十 ze 个 患者 参与 试验 . 将 他 们 随机 地 
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分 为 < 组 ,分 别 包 含 tj、 ,je 个 人 ,使 第 一 组 的 人 服药 4,,…， 
第 < 组 的 人 服药 4。。 第 了 组 ”个 人 的 措 标 记 为 羽 0 
1 一 1 和 CC。 令 GE 一 (DB 2 (XL 9 3 玉 。， ‘ys 
Xeon). 

与 例 5.2 一 样 ,有 三 种 模型 可 选用 .第 一 种 是 假定 样本 4，…， 
Xin, 六 自 分 布 (x 一 0;)，i 二 1,…,C。 原 假设 “各 药物 之 间 效 
应 无 差别 ”归结 为 06, 一 … 二 6。。 若 进一步 假定 不 (%) 为 正 态 分 布 
N(0,0*)， 则 是 初等 教 本 中 一 元 方差 分 析 的 典型 提 法 ， 用 熟知 的 
检验 去 处 理 之 。 若 对 (Xx) 的 形式 不 作假 定 ， 则 此 法 不行 ， 可 
用 第 四 章 讲 述 的 秩 方 法 处 理 ， 记 可 以 用 下 面 讲 到 的 第 二 种 模型 到 
处 理 之 。 

第 二 种 模型 是 假定 每 一 患者 有 一 个 反映 法 条 件 的 常数 与 之 对 
应 . 这 样 ， 若 在 第 i 名 上 忠 首 身上 施 药 44， 则 其 指标 为 必 十 09 
0Q1，,… ,Qn 未 知 且 可 有 差 名 ,为 施行 条 件 化 俭 验 ， 需 要 两 个 统计 量 
了 和 及 .MM 的 取 法 如 前 ， 由 由 ZZ 的 7 个 坐标 置换 而 产生 的 由 4! 
个 点 构成 的 集 ， 或 简单 地 即 Z1,… ,Zn 的 次 序 统计 量 ， 至 于 了 ， 
则 须 反 映 各 药物 间 的 差距 ， 记 


他 十 … 寸 台 _ 四 
Fi=2 Zs/nis i =1,",C, F=2 Zn (5°13) 
{=1+" +n11+1 4=1 


万 ,Ho 分 别 反 映 药 物 4 的 平均 效果 . 当 原 假 设 成 了 
时 ， 它 们 的 值 应 比较 接近 ， 反 之 则 有 较 大 差 中 。 故 可 以 用 加 权 和 


TT 2) nF 3) (5.14》 


作为 衡量 试验 数据 与 原 假设 差异 的 指标 。 

以 下 的 步 又 即 与 例 5.2 无 异 ， 得 出 GZ 后, 经 置换 得 出 入 =n1 
个 点 ZiD， QZCD。 算出 N 个 值 T(QD)， 一 1 N， 把 它 
们 按 由 大 到 小 排列 为 之 … 之 fy。 算出 人 (ZZ)。 给 定 水 平 %， 当 
T(Z) 之 tr 时 否定 原 假 设 . 当然 、 你 也 可 以 用 别 的 统计 量 《 直 . 忆 
上 看 来 合理 者 ) 代 检 下 。 检 验 步骤 无 异 . 与 例 5.2 相似 ， 这 里 并 
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无 必 受 计算 nt 个 不 同 的 人 工 值 . 其 实 相 导 者 至 多 不 超过 
11 1322 1 ) 个 . 

第 三 种 模型 在 提 法 和 处 理 方 法 上 也 与 例 5.2 相似 ， 此 处 不 恒 
复 了 . 

例 5.5( 独 立 性 检验 ) 设 ( 下 ,了 0) ;2 二 1 2， 是 二 元 总 体 
《 久 , 六 ;的 简单 样本 ， 要 检验 “和, 了 独立 ”这 个 假设 . 

此 问题 在 第 四 章 中 曾 用 秩 方法 涉 粤 过 , 著 假 定 ( 羡 ,Y ) 的 联 
会 分 布 为 正 态 ， 则 可 以 通过 相关 系数 


+- (SKY nF)/ (SX TB) 7 
去 检验 之 , 但 当 《 下 ,Y ) 之 分 布 不 假定 为 正 态 时 ，7 的 (无条件 ) 
分 布 定 不 出 来 ， 而 此 法 不 通 ， 可 油条 件 答 验方 法 夫 处 理 之 . 记 
= (Ms,) ,其 中 用 ,和 股 ; 分 别 是 羡 1,…, 尺 , 的 次 序 统 汁 直 
和 了 ,,…, 了 ,的 次 序 统 计 彼 。 卫 就 选择 为 7 。 
在 交 疹 定 MM ， 和 静 , 后 ， (X,, ) 有 na) 利 (和 1， 了 .分别 各 有 
nl 种 去 换 ， 但 上 的 分 母 与 这 置 的 无关， 分 子 中 的 妖 豆 了 也 与 这 
置换 无 关 ， 它 们 在 给 定 (MX ,MI。) 的 条 件 下 为 常数 。 只 有 立 Xi， 
项 可 随 这 置换 而 变化 ， 但 也 只 能 产生 #1 个 不 同 之 信 一 -因为 
车 六,，…Xs 和 了 ,Ys 经受 同一 置换 , 则 不 政变 己 下 了 ,之 们 ， 


故 不 妨 设 芷 1,… ,六 ,国定 这 次 序 不 动 , 而 只 有 Y,,… ,Yn 作 置 痰 ， 
这 样 产 生 41 个 值 , 两 为 在 原 假设 成 立时 让 1， 2 . 和 YY 
都 是 独立 同 分 布 .在 给 定 Mk = (M1,MM,) 的 条 件 下 ,这 2! 个 值 有 
等 概率 1/n1 。 UE 得 出 检验 的 步骤 如 下 : 

.就 (1， 2,. …,7) 的 每 一 个 置换 (321,22,… in ) 计算 XX 了 


之 值 ， 把 这 nt 个 值 记 为 tis ix, N=11 日 
2. 算出 入 个 值 #=|t; 一 x 卫 了 |，1i = 二 1,…，N， 并 把 它们 
按 由 大 济 小 排列 为 不 六 丰产 和 天 不 
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3， 给 定 水 平 a. 算出 XY,—nTy (事实 上 它 是 上 述 N 


个 值 中 之 一 }。 车 此 值 上 wa，， 则 否定 原 假设 ， 不 然 就 接受 原 假 
设 。 
这 个 条 件 检 验 在 不 对 《到 ,了 ) 的 分 布 作 任何 假定 的 情况 下 ， 
给 出 确切 的 水 平 a。 这 是 本 节 的 几 个 例子 所 体现 出 的 一 个 共同 优 
点 。 置换 检验 之 所 以 没有 得 到 广泛 应 用 ， 其 原因 也 可 以 在 这 由 个 
例子 中 看 到 ， 即 计算 量 太 大 .为 克服 这 一 困难 ， 当 样本 大 小 较 大 
人 时， 有 必要 乞 援 于 大 样本 理论 ， 而 这 又 会 导致 国 到 传统 检验 法 . 
例 5.6( 概 率 变 点 问题 ) 我 们 再 来 给 出 条 件 检验 的 一 个 有 趣 
的 应 用 . 设 定 时 地 观察 某 事件 4 是 否 发 生 ， 设 开始 时 ，44 的 概 
率 稳 定 在 如。 到 某 个 未 知 的 时 刻 ， 它 可 以 突变 到 另 一 个 值 加。 当 
力 关 时 这 个 时 刻 就 称 为 (概率 ) 变 点 。 考虑 至 多 只 含 一 个 变 点 的 
情况 ， 统 计 模型 可 表 为 ， 有 独立 样本 下 ，…, 愉 s， 分 布 是 
PlX,=1)=1~-P(X,=0)=p, 7 =1, ,1 
PIX,=1)=1— P(X,=0})=p， 1 =H 
(pi1,pP2,22 未 知 ) 
要 依据 样本 检验 “ 变 点 不 存在 ” 即 如 力 : 这 个 原 假设 如 ,以 及 
当 3 定夺 ， 千 计 变 点 级 。 
Ui 二 = 六 十 十 了 4， 人 = 一 Ui 是 到 时 刻 上 为 上 及 的 
囚 计 i 故 A 定义 统计 量 
了 一 下 (LA 一 77/72) ,R= 1, 
易 见 
kn!i(n—mt1)(p— Pb), Bl<hem— 1 
(1—R)N (m1) pmp}, Bm, 
由 此 式 看 出 ， 只 要 轧 , 去 思 , 则 |E(TW) | 开始 随 增加 而 增加 ， 到 
下 二 4 一 1 处 达到 最 大 ,然后 随 上 月 增 种 而 下 降 ， 而 当 加 二 加 时 则 总 
为 0, 这 个 事实 启发 了 以 下 的 检验 法 : 令 了 一 max(C17:| Il])。 
当 了 大 于 某 常 数 C 时 ， 否 定 原 假 设 映 , 不 然 就 接受 瑟 。 由 于 了 在 
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五 (zx 一 


于 成 立时 之 分 布 既 复杂 且 与 轴 , 如 之 公共 值 娟 有关， 不 易 冠 . 
出 。 但 我 们 可 证 明 ， 在 给 定 U0, 一 n, 的 条 件 下 ，5 m3 nT 的 条 件 
分 布 ， 与 在 原 假 设 ( 两 分 布 同 ) 成 立 之 下 ， 样 本 大 小 分 别 为 所 及 . 
1 一 4 二 704 的 CMRpz03 统 计量 的 分 布 和 相同。 出 于 在 ;Ks 较 小 时 
Cmapios 统计 量 的 分 布 有 表 可 查 且 当 9 ,2 大 时 定 出 了 其 极限 分 
布 ， 故 可 凭借 这 个 关系 来 检验 总 。 

为 证 明 这 一 事实 ， 只 须 注意 ， 若 将 ZT 改写 为 Te== 2/p 
—kR/M)=n.CUr/R 一 [7 一 xp) , 即 得 |7j 一 ?219292] Ur/ 一 
/op 。 因 而 zx 953 全 一 maxl77e/zn 一 /oa|， 其 结构 正好 与 


CMapHos 统计 量 同 。 只 在 后 者 而 言 ，X 样本 所 吉 的 2 个 位 置 ， 
现在 由 个 1 占据 。 当 Cwapaos 原 假设 成 立时 ，K, 个 久 样本 在 


全 部 的 个 样本 中 所 占 位 次 ， 在 ( 萎 ) 种 方法 中 为 等 可 能 ， 而 此 处 
在 =p 时 ,在 给 定 口 ,二 的 条 件 下 ，1 个 1 所 占 位 次 ,在 全 部 - 
(8 ) 各 方法 中 也 是 等 可 能 。 不 难 理解 ， 这 就 证 明了 所 要 的 结果 。 


8$5*2 大 样本 置换 检验 


置换 检验 ， 或 一 般 地 说 条 件 检验 ， 是 基于 统计 明了 在 给 定 统 
计量 AM 的 条 件 下 的 条 件 分 布 . 这 个 分 布 往往 是 一 个 包含 大 量 数 值 
的 离散 型 分 布 , 计 算 和 应 用 不 易 。 大 样本 置 效 检验 的 目的 ,就 是 在 
样本 大 小 很 大 时 ”用 一 个 熟知 的 连续 型 分 布 《 一 般 是 正 态 分 布 ) 
去 通 近 这 一 分 布 ， 因 而 可 以 容易 地 决定 否定 域 临界 值 的 近似 值 ， 

大 样本 置换 检验 的 男 一 个 重要 意义 ， 是 通过 它 可 看 出 置换 检 - 
验 与 传统 检验 ( t 检验 、 下 检验 等 ) 的 联系 ， 从 而 给 这 些 熟 知 的 
检验 以 一 种 新 的 解释 、 

上 节 的 例 5`2 和 例 5.3， 代 表 了 两 种 不 同 的 傅 况 ， 在 例 5.2: 
中 ， 参 与 置换 的 变量 数目 随 样本 大 小 4 增加 至 于 无 穷 。 而 在 健 
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"3 中 ， 参 与 置换 的 变量 的 组 数 随 % 增加。 但 每 组 内 参与 到 换 的 
变量 数 固定 不 变 . 在 前 一 场合 需要 与 置换 有 关 的 特殊 性 质 的 极限 
定理， 在 后 一 场合 ， 则 只 人 须 用 到 普通 的 中 心 极 限定 理 ， 

一 、 线 性 置换 统计 是 的 新 近 正 态 性 

定义 5.3 给 定 两 组 常数 Ci …， de 及 BL，…, 6b、。。 设 E 二 (6,， 
6n) 为 4 维 随机 向量 ， 其 分 布 是 :6 以 等 概率 1/n!l 取 (6，,…， 
3w) 的 任 一 置换 ， 

Pet 一 (0 一 LA ， 对 (1,… 7) 的 任 一 


置换 (7) ,…2,)， 《5*15) 
则 称 
L=AQc 十 … 十 Ce 《5'16 ) 


为 一 线性 置换 统计 量 ， 

在 84*1 的 一 段 中 我 们 曾 定 义 过 线性 秩 统计 量 上 一 c.a( R,) 十 
… 十 cna( 必 。)。 不 难看 到 ， 这 与 (5.16 ) 在 实质 上 是 一 回 事 。 此 
处 的 ci 相当 于 《5.16 中 的 @;。 又 车 记 4( 人 一 总 ，2 一 1，…，H。 
则 据 定 理 4,1,?2 维 随机 向 量 CaltRD)… ,a(R,)) 取 (5,，…,bn) 的 任 


一 墅 换 的 概率 为 1/41 ， 因 而 总 Cie(R,) 的 分 布 与 《5.16 ) 的 分 


布 相 同 。 从 统计 应 用 的 角度 看 ， 二 者 的 差别 在 于 、 在 线性 秩 统计 
量 中 2(…) 一 般 是 一 有 规则 的 计 分 函数 ， 而 在 线性 置换 统计 量 中 ， 
《六 pa) 往往 是 随机 变量 所 取 的 值 ， 性 质 较 复杂 些 ， 

据 上 述 《 5'16 ) 与 线性 秩 统 计量 的 关系 ， 由 公式 (4.3) 和 和 
《4.4): 即 得 (5:16) 定义 的 工 的 期 望 和 方差 为 ， 


E(L)=nab, Var(tL)=—_ + # (a —a)*D (6, —B)’, 
$F 


了 2 一 1 1 


《5.17 ) 
其 中 5 一 忆 ci/z， B= 这 bfn. 


例 5.6 ”考察 例 5.2 中 的 统计 量 人 在 给 定 统计 量 (2Z) 的 条 
-竹下 的 条 件 分 布 . 按 定 义 ， 这 分 布 相当 于 


a QQ23 。 


! 一 本 二 | | 1 a 1 二 +l 
Rr *: 1 5 a So Hs on 


(5.18 ) 
的 分 布 ， 其 中 CEs on) 以 等 概率 1/n1 到 (Cis Ln > 的 任 : 
一 置换 。 这 相当 于 (5.16) 中 


Ee SE PN i 1 ,1 。 
(CCG1 pn0) 一 ( NN A » 元 (C5.19) 
(CA 《5'20 ) 


的 情形 。 回 忆 (2QB 7 一 (有 1 了 了 sz) 。 当然 ， 
这 一 切 都 是 在 原 候 设 成 芯 的 前 提 下 。 

注意 在 本 人 饮 中 ， 其 实 也 是 在 一 切 置 换 检验 中 ，(5,… ,5,) 其 
实 是 随机 变量 的 取信 .但 我 们 是 在 给 定 Z1，… ,2 的 条 件 下 法 
讨论 的 ， 它 们 都 当 作 常数 看 待 。 

现在 把 和 定义 85"3 中 的 Ci" sn 政 汶 Goty… Onn 六 > 0, 改 
为 Do 2 Cyn ny Gna 而 将 雇 定 义 的 线 性 置 
换 统 计量 (5-16 ) 改 记 为 局 这 个 修改 的 意义 是 ， 我 们 要 考虑 一 
中 线性 置换 统计 量 { 忆 上， 豆 在 定义 荆 。 时 。 记 用 到 的 常数 都 从 新 
来 过 ， 与 定义 Ls 时 用 过 的 常数 无 关 。 招 Co， ;rn 和 Do ，…， 
bmn 的 平均 分 别 记 为 54 和 各， 的 期 望 和 方差 分 曙 记 为 多 
903。 我 们 要 考虑 的 问题 症 ， 存 何 种 条 件 下 ， 标 准 化 变 景 (1, 一 
ln) /0s 当 2>ce 时 依 分 布 收 人 敏 于 入 (0,1). 为 此 ， 肥 定义 一 个 上 出 
Wald 和 和 Wolfowitz 在 1944 年 引进 的 条 件 : 

定义 5.4( 条 件 WW)， 大 对 任何 国定 的 自然 数 ? 之 3 ， 序 列 ， 

{Bama / 全 一 : n=2,3,4,"} 

(5.21) 

保持 有 界 ( 其 界 可 与 4 有 关 )， 则 称 序列 

人 Gory yas)》 及 一 2 《5-22 》 
满足 条 件 WW 

在 定义 4-2 中 曾 引 相形 如 《5.22 > 的 序列 满足 条 件 六 的 概 : 

» 224， 


念 .不 难看 出 : 条 件 WW 的 要 求 比 条 件 六 吝 , 事 实 上 ， 若 (5'22》 
不 满足 条 件 N， 则 它 绝 不 可 能 满足 条 件 WW .事实 上 ， 因 (5:22) 
不 满足 N， 故 存在 2>0 及 一 串 上 升 的 自然 数 {tj 使 


ni 
站 (ni 一 Hn) PE (Qn — an,)", k 一 二 20 
4 


工 二 着 如 前 


于 是 有 


| 
Hg 之 Carie Gn ) 5 7 


( max (dn — dn,) | 


天 1 


对 =12,… 成 站 ,由 于 >0 而 二 >co， 知 序列 《5:21) 在 
了 二 4 时 已 不 有 界 ， 故 条 什 WW 不 能 成 立 ， 
现在 我 们 可 以 陈述 下 面 的 定理 
定理 5.1 如 果 丙 序列 {(Cni ,lnn) :4 一 1 2，…} 及 {(2s:， 
Bo :7 一 2 上 中 ， 有 一 个 满足 茶 件 WW 而 另 一 个 满足 条 
件 算 ， 则 由 它 i 性 置换 统计 旺 序列 { 工 ,} 满足 
(La—i /os No, 1)， 当 ?>co。 《5:23 》 
这 个 定理 的 原型 是 Wald 和 Wolfowitz 在 19 持 年 提出 ， 当 
竺 他 们 发 冰 两 序列 都 满足 WW 。 后 米 Nocther 在 1949 年 改进 为 
上 上 述 形式 . 好 寄 的 读者 或 许 会 问 ， 既 然 如 此 ， 能 奋进 一 步 改进 为 
只 要 求 两 序列 都 满足 条 件 N? 这 是 不 可 能 的 ， 事 实 上 ， 本 书 作 者 
之 一 曾 在 一 项 工作 中 证 明 ; 藻 只 假定 两 序 a 风 
《 工 ; 一 4) /on 可 以 没有 极限 分 布 ， 电 可 以 依 分 布 收敛 于 任 一 个 方 
莽 有 虐 薄 无穷 可 分 分 布 。 但 是 ，Hajek 在 1961 年 得 出 了 一 个 深 
刻 结 和 桌 。 他 证 上 明了， 治 两 序列 都 满足 条 件 闪 ， 风 Ln — in) /On 
- 笃 ,N(0,1) 的 充 杰 条 件 是 ， 这 两 序列 还 满足 由 Motto 在 1955 年 
引导 的 一 个 条 件 M.。 这 也 就 是 我 们 曾 在 54'1 的 二 段 开 头 处 担 到 
的 Hajek 结 淋 . 
我 们 将 不 给 出 Hajek 定理 的 陈述 和 证 朋 。 有 兴趣 的 读 痢 可 
参看 在 S41 的 二 臣 公 引 的 Hajek 文章 ， 也 可 参看 陈 锅 颖 < 数理 
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” 统计 引 论 y; P.638-645。 我 们 将 给 出 定理 5:1 的 证 明 . 但 为 不 打 断 
此 处 的 叙述 ， 这 证 明 将 写 在 文章 附录 办。 

顺便 提 齐 ， 由 于 前 述 的 线性 置换 统计 量 与 线性 秩 统 计量 在 分 
布 上 网 冯 一 性 ， 定 理 5.1 也 可 用 于 证 明定 理 4.4 的 某 些 特例 .这 
特例 包含 了 多 数 在 应 用 上 重要 的 情况 ,这 也 将 在 附录 中 给 出 ， 

在 多 样本 问题 中 要 同时 考虑 若 于 个 线性 置换 统计 量 的 联合 分 . 
布 。 设 有 入 十 1 个 序列 

《( 克 CC 天 一 12， R=1, 1; 

{bras sDnn) :12 1 2， 

把 出 (250…，dnoo 和 pa， po) 产生 的 线性 置换 统计 量 记 : 
为 Lsx， 装 数学 期 误 与 方差 分 别 记 为 pw 和 和 03,。 记 

~ et Ce oe) 

定理 5.:2 震 对 每 个 让 二 1,…,?4, 序 列 {(0 人 ,0 人 :一 1 > 
2,…} 适合 条 件 WW ， 而 {6a Dan) :NHN 二 1929…}， 和 庆 合 条 和 俯 : 
N， 又 设 极限 
(a 2) a 一 起 
lim OO uvs 

(Da -a a a))) (C5.24) 
对 任何 纪 天 罗 ， 人 二 1 7 存在 ( 当 t 一 2 时 ， 极限 当然 
存在 且 44 一 二),' 且 入 一 (hw)4s5o19. m 为 灌 穆 方 阵 ， 则 当 1->ce， 
时 ， 有 

La NC0,A). (C 5.25 

本 定理 不 难 在 定理 5:1 的 基础 上 去 证 明 ， 细 节 也 不 在 此 给 缆 
本 
二 ， 前 段 结果 的 应 用 
现在 我 们 要 将 (一 ) 中 的 极限 定理 用 于 85.1 的 几 个 鲍 子 中 ， 
以 决定 置换 检验 否定 域 痢 界 值 的 大 样本 近似 。 为 此 需要 验证 某 些 
序列 满足 条 件 WW 或 者 N. 我 们 把 需要 的 结果 列举 并 证 明了 天下: 
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(1) 设 (aoi， ion)== (Gdnyes …yen)， 7 一 1 2 。 其 
中 Gs。 有 7 个 ，es 有 7 个 ， Ni 十 hs 二 HN， 且 dn 天 es， 则 如 在 在 
4 这 0 使 对 一 切 有 4 所 /NN 竺 1 一 4, 则 和 Gm Grn) :HH 二 1,2 ,了 
满足 条 件 WW. 
证 明 可 由 简单 计算 直接 得 到 ， 留 给 读者 . 
(2) 设 加 ,…,ho 为 自然 数 ，# 十 … 十 He 一 NW。 令 | 
(CaM, a) = 00, O05 01 sgl, 0 0, 0, 
-0) 《5.26)》 
R=l,2,C 
在 上 述 向 量 中 ， 全 部 坐标 则 分 为 c 段 ， 当 i 天 忆 时 ,第 i 段 合 
Hh 个 0， 而 第 下段 刚 含 和 4 个 1 。 假定 存 在 14>0, 使 对 一 切 %w* 和 
k i CC 有 
Hi/ A 《5.27 》 
出 对 每 一 个 启 ， 育 二 1,…,C，{(Q4D… Cr :NL 二 1,2,*…} 适合 条 
性 WW 又 车 对 任何 RR 二 1,…,C， 极限 


limmx/n 一 pi 存在 且 >0， (C528) 
和 极限 (5-24 ) 存在 ， 且 
一 一 PuDy Ws _ 上 Pe 
Auy (os) 当天 VY (hn 1)。 《5 29 》 


前 一 结论 包含 在 (1) 中 ， 后 一 结论 易 由 直接 计算 得 到 ， 留 给 

《3) 设 开 ,和 -为 一 串 独 立 同 分 布 的 随机 变量 ， 对 任何 自 
然 数 7+， 有 EIX1|'<co， 又 Var( 廊 ,)>>0 (注意 由 瓦 X3<ce 有 
Var( 下 <<eo)。 令 

i Te oh Re (5.30) 
则 以 概率 1 成 立 ， 这 个 序列 满足 条 件 WW， 

证 明 议 太 记 六 | 的 ?了 阶 中 心 拭 ， 

UC— EC(X.— EXD)', 7 -2,3,4,.: 
列 由 KonMoropos 强大 数 律 易 知 以 概率 1 有 
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¢ 名 Cs 下 n 
lim 方 导 <X, 一 耳 )" 的 (是 ,一 六 
Emded 二 


了 
由 于 岂 >>0， 知 以 概率 工 有 有 


lim 


/a 


这 证 明了 ， 以 概率 1，. 上 式 左 边 极限 导 下 的 序列 为 月 界 ， 因 而 证 
明了 所 要 的 结果 ， 


《4) 设 天 有 为 一 串 独 立轴 分布 的 随机 变量 ， 
0< Var(AD<co， 定 义 (cn yy， Go) 如 《5.30)。 则 以 概率 1 成 
立 ， 这 序列 满足 条 件  。 

证 曲 “ 按 条 件 太 的 定义 ， 要 证 明 ， 


Tmax (X,— Ty 


lim ee 一 一 小， QoS。， 
es 页 《5'31 ) 
因为 0 之 Var(X. < 之 %， 按 强 大 数 律 


律 ， 上 式 极 瘟 号 下 豆 达 式 的 分 - 
母 以 概率 1 收 化 于 Var( 下 ,) >>0。 由 昆 可 知 ，( 5.31 ) 等 价 于 
lim 训 Imax (天 一 下 = 0， asS。 (532 上 
落 轧 和 生生 记 天 :的 次 序 统计 量 ， 针 号 矶 
MA KL) EK, — Xn EIN + XN max Xr 


1 性 


6533 
现 住 证 TF 面 的 事实 ， 奉 ;$s，… 独 谋 同 分 布 ， 琴 |51| 之 20， 测 
i > Di 由 了 Po Ee iT -32 了 
lim -maxig4| 一 0,2.3. ,为 证 起 ， 任 给 定 >0。 定 多 一 别 计件 
罚 一 Pe ft 
A={|t I>}, ? 二 2 


《 5 .3 着 
以 F 记 是 的 分 布 函 数 . 有 


PIAD=:1— FUDD YFRt La) Fhe)), 
| 
于 是 自 吾 1e|< co 知 


S PAV=D BE {F(R+I)e) 一 下 Ce)} 
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SiF(+L)e) -Fie)} 


到 BiePlie< 1z <G+1De /El /< 


故 由 Borel-Cantelli 引 理 ， 知 

P{ 事 件 列 4 , 4,… 只 发 生 有 限 个 }= 1 《5-35 
但 “事件 ,4,,… 只 发 生 有 限 个 “意味 善 当 %* 充 分 大 时 ， 有 
不 发 生 ， 即 当 姑 充分 大 时 有 [es| 委 22。 由 此 不 难 推 出 : 2 


分 大 时 有 Imaxiei| <ne， 这 进一步 得 出 limsup 方 max 1,| 所 
因此 ， 由 ( 5*35) 推出 ， 对 任 给 >0， 以 概率 1 成 立 


limsup Lmax |é,| < 
nm 1 性 襄 亏 聊 


由 于 6->0 的 任意 注 ， 这 证 明 Tlimmaxlé|=0, a,s, .注意 到 


Var(X%D<co 内面 瑟 4 ce， 把 这 一 结论 用 于 序列 (Gy $a，，…》 
本 …)。， 得 到 


lim.- maxii=0, a.S。 
中 一 ca I… 《 5* 38 


由 《5.33) 和 《5.36§》 即 证 消 了 《5"32)， 因 而 证 明了 《5*3i). 
在 了 这 些 准备 我 们 可 以 继续 85'1 中 诸 例 的 讨论 、 
名 5.2” 沿用 例 5。2 的 符号 ， 我 们 来 讨论 甚大 样本 置换 检验 
的 临界 值 共 瑞 定 . 除了 我 们 兽 作 竟 假 定 外 ， 还 要 作 两 个 假定 。 
《1) 存 证 14>0， 合 对 一 切 R， 有 4<n/n 和 1 一 4， 
(2) 总 体 分 布下 的 方差 非 9 有 浪 .…， 
按照 我 们 的 记号 ，(Z;,…;2Z0) 二 (六 ,nn 了 1 …s 了 we), 暂 记 


多 1 一 加 Zi/{， 3. 一 部 Zi/n:， 统 计量 T(Z) 就 是 多 一世,。 在 
例 5.6 中 已 指出 ， 在 原 假设 成 立时 ， 在 给 定 村 (Z) 之 下 , 了 的 条 


邓 这 里 是 在 便 5"2 的 罚 型 1 之 下 去 讨论 ， 若 用 模型 3。 网 须 直 换 很 定 (天 1，… sa) 
和 (71 ,…, 了 s ) 满 足 条 件 本 。 这 时 用 不 普 预 得 事实 1)。 
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件 分 布 与 置换 统计 量 (《 5'18 ) 同 ， 即 由 (5:19 ) 和 (5.20 ) 决定 
的 置换 统计 量 . 根据 假定 4, 8, 及 上 面 的 预备 事实 1 和 4*, 知 定 
理 5.1 的 条 件 满足 《确切 地 说 ， 应 为 “以 概率 1 满足 ?。 下 两 例 辣 
此 ), 又 易 算出 i 一 0， 及 


04 一 A 


2 2 2 4 
ge 2 2 > (Zi ~2a) 


(FF 六 光 
+ (7, — 2,):} 
=A{c:+ B(F, — 3.)*}, (5'37) 
ni n 
其 中 A=n/(n— 1)n7,, CAA 十 ， 之 ， (Zs —F.)’, 


五 二 XH 一 1， 据 定理 5*1， 本 例 原 人 设 的 加 换 从 验 的 下 当 n 其 
大 时 可 近似 地 取 为 


|8.~ Zi >M Al(Ei+ B(BI— DB.) 2, 《5.38) 
G 为 给 和 定 的 水 平 . 不 难看 出 ， 当 天 一 1>> 翅 时 ，(5.38) 等 价 于 
| 区: 一 万 | /> ee 于 本 /9 (5:39) 


NNR—1— ,NM Mm 
把 记号 Z 改 回 到 六 ，Y， 并 拼 凌 成 通常 的 两 样本 统计 量 
1 -I) /YE (和 一 总 :+ YP), 
可 将 (5.39) 
I > (5:40) 
如 内 是 单 仙 侦 设 《 对 立 假设 ， 药物 号 优 于 44)， 则 (5.40) 相应 地 
J 


ER 1 (5.41) 
这 个 结果 很 有 意思 ， 因 为 它 形 式 上 与 通常 的 两 样本 上 检验 完全 一 
样 ， 只 是 临界 值 略 有 不 同 ， 但 当 % 其 天时, (7 一 2)/ (7 一 1 一 2),) 
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接近 1 而 所 -Ca/2) 接近 za 故 二 着 的 临界 值 也 相差 很 小 

这 样 ， 当 样本 大 小 很 大 时 ， 通 过 使 用 置换 检验 再 取 其 大 样 
本 中 近 ,我 们 基本 上 又 加 到 了 常用 的 t 检验 . 它 让 人 看 起 来 好 象 是 
转 了 一 个 大 圈子 而 一 无 所 获 . 这 确 是 怡 换 检验 的 一 个 弱点 ， 也 说 
明了 为 何 它 未 获得 广泛 的 上 应用， 如 果 我 们 坚持 按 置 换 失 验 的 原 义 
去 做 ， 则 除非 % 很 小 ， 计 算 量 将 极 大 ， 即 便 可 行 ， 代价 也 太 大 
了 。 车 用 极限 分 布 去 壮 近 之 ， 则 某 本 上 又 辕 到 传统 检验 。 这 个 玩 
难 之 局 并 无 妥善 的 处 理 方 法 . 

但 我 们 也 不 应 据 此 而 完全 否定 置换 检验 的 意义 。 其 理由 实际 
土 在 前 面 马 指出 过 了 。 此 处 要 重复 强 润 一 下 ，。 

1. 在 应 用 上 上 ， 如 在 本 例 的 情况 ,往往 # 并 不 很 大 例如 
?< 委 30 的 情况 ， 在 当今 的 计算 条 件 下 ， 并 不 算 很 过 分 、 而 恰好 在 
这 个 情况 下 ， 传 统 模型 中 前 假定 ， 问 题 较 多 .。 例如， 不 论 是 吾 正 
态 都 采用 # 检验 ,而 以 中 心 极 跟 定 理 去 解释 之 。 但 在 # 不 甚大 时 ， 
统计 量 的 精确 分 布 与 正 态 分 布 可 相去 甚 远 ， 从 而 使 名 义 上 的 水 
平 a 与 事实 上 的 水 平 有 显著 差别 ， 但 使 用 者 无 法 知道 这 差别 是 多 
少 。 置换 检验 则 能 在 对 总 体 分 布 不 作 任何 假定 的 情况 下 ， 提 供 一 
个 具有 确切 水 平 e 的 检验 ， 这 是 很 了 不 起 的 。 

2. 即使 在 传统 检验 也 可 以 使 用 的 场合 ， 置 换 检验 理论 给 这 
种 检验 一 个 新 的 解释 。 这 种 解释 是 建立 在 更 现实 的 统计 假定 的 基 
础 上 ， 例 如， 如 前 面 曾 指出 的 ， 在 传统 模型 下 看 不 出 在 试验 中 施 
行 随机 化 对 尔后 的 统计 分 析 起 了 和 何 作用 ， 但 在 置换 检验 理论 中 这 
一 点 看 得 很 清楚 ， 事 实 上 ， 随 宙 化 原则 是 这 种 理论 的 柱石 。 

例 5.4” 现在 来 考虑 多 样本 问题 ， 并 沿用 例 5.4 的 记号 ,在 
该 例 中 ， 我 们 曾 提 出 由 (5.14) 定义 的 统计 量 了 ， 在 它 的 基础 上 
作 置 换 检验 .。 

设 诛 假 设 成 立 。 亦 求 统计 量 工 在 给 定 M(Z) 之 下 的 条 件 分 
布 的 极限 分 布 .这 里 用 得 着 定理 5.2. 了 到 (a.…，a@a) 二 (0,…0， 
e000) ， 基 中 15s 占据 长 为 z 的 一 
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段 而 =1s*…'yC 一 1. TDs b= LZ). 把 由 这 两 个 序 
列 定义 的 园 换 统计 量 记 为 上 ,.， 则 


N14 "th 
™ 


Lar =— ZL /N= Zr k=l C1, 


#1 1 
按 公式 (5:17)， 易 算得 
di =ECLne) 一 和 :到 


oa 一 Var(Za) 一 (CZ, FS, 


志 下 我 们 假定 (5.28) 成 立 , 且 总 体 分 布 的 方差 非 0 有 限 ( 参 大 例 
5'27 的 足 注 )、 这 时 , 据 了 预备 事实 1°,4” 及 定理 5.'2, 以 概率 1, 当 


zco 时，c 一 1 维 随机 向 量 攻 二 (全 二 人， 


nl Qnre-! 


在 给 定 MM(Z) 之 下 ， 依 分 布 收敛 于 c 一 1 维 正 态 分 布 N(0，A)， 
共 中 

A =(h 和 ev 肯 (5.29) 确 定 。 
容易 证 明 ( 请 读者 白 证 )，A4 为 非 异 正定 方 洗 。 故 有 


? 一 1 2 
了 Z 4 oe—1ls (5.42) 
定义 An = {My ) Ca 其 中 
Maa 一 1 和 ou 一 -y Fst HAY 
, ”OY (AN) (HA) 


出 A， 一 从 当 2 一 co， 困 丽 (5.42): 可 政 为 
LL A -1 2 纪 Ex? (5.43) 
计算 Ls 上 7 了 .直接 验证 可 知 


Ne 
> 3 他 


一 .rli 村 ,Ht 
A =diag (2 )+ww 


(11 一 (MHZ 天 一 2) /Ho Ho RN) fH)! 
经 过 人 少量 的 化 简 ， 得 到 
LAs! Le= (n=—1) ni(Zi— 2)°/S 
Ly -FY 
十 《入 1 元 (局 (Z, 2)) /S, 
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A r cl 

其 中 = 一 立 《2 一 丈 ) 由 闻 马 Hi(Z4— 2)=0, 知之 7 《〈 儿 一 五 ) 
一 一 hol 多 .一 BF) 于 是 得 
/N= 1) DS mz 2)/S=(n~—1)7/S. 

了 由 (5.14) 和 定义 .总 结 上 述 ,我 们 证 明了 : 在 所 设 的 条 件 下 ， 以 概 


率 为 1 地 ， 当 给 定 M(Z) 时 ， 有 (2 一 1D)TVS 二 13，， 

因此 ， 本 例 原 假设 的 辕 换 检验 的 否定 城 ， 当 其 大 时 ， 过 似 
地 可 取 为 

(nH— 1)T/S>H_ (a) (5.44) 
把 AA 还 愿 成 TD. .GE 注意 到 


易 见 (5.44) 等 价 于 


A 去 。 去 2 
C= 它 Pa( 人 一 伴 ) i (1 —C Xe (a) 
i (下 ,一 是 ,ys (C—1)tn mi (a)) 
大 一 和 Et 他 1 A {5.45) 


上 式 左 边 的 统计 量 不 是 别 的 , 正 是 一 因素 方差 分 析 中 的 环绕 计量 
履 我 们 基本 上 又 回 到 了 传统 的 尺 检验 ,只 是 申 界 值 由 玉 。 bs-:(a) 
政变 为 《5.45) 的 右边 。 当然， 此 处 未 假定 总 体 分 布 为 正 态 。 还 须 
注意 ， 当 2-~>c2 时， 下 cisn-o(@) 及 (5.45) 的 右边 ,都 以 2 (8)/ 
《Cc 一 1) 为 极限 ， 故 当 1 很 大 时 二 者 很 接近 ， 

这 个 竺 凡 对 置换 检验 的 意义 ， 以 及 有 关 的 解释 ， 与 例 5.2/ 相 
得。 此 处 不 获 半 了， 

光 5.5” 沿用 例 5.5 的 记 巧 六 全 :两 个 基 机 变 昌 都 有 非 
0 有 限 的 方差 ， 间 其 中 有 一 个 ， 傅 部 站 ， 训 主意 阶 的 有 限 矩 :。 
这 于 ,根据 预 和 前 写实 (3) 利 (4) ,以 证 名] 成 立 下 述 事 实 : {( 人 9 
过 :7 一， 2 满足 条 年 开 卫 河 攻 下: 和 二 1 2，… 和 小 
满足 条 件 访 ,又 识 例 5.5 中 已 说 明 过 , 洲 江 假设 “XX ， 了 独立 ?成 
@ 合用 Hajsk 更 深刻 约 结 果 可 证 明 ，7 界 短 有 限 的 条 件 可 免除 。 
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立 则 在 给 定 M 一 (M,，M. )( 兄 例 5.5) 之 下 ， 卫 和 了 ,的 条 件 
分 布 即 是 由 

《Ci Cr》 一 (用 (一 (到 
按 定 义 5'3 而 产生 的 线性 置换 统计 最 。 按 公式 (5.17)， 此 置换 统 
计 昌 的 期 望 和 方差 分 别 为 1 二 hn 及 了 及 o2= CX -- 革 )? 


PY-Y). 因此 所 定理 5,1 有 
SXY, nFF 
dE ,No, 1) {5.46). 
(ZX RP) 
注意 (5,46) 不 是 在 无 条 件 的 意义 上 ， 而 是 在 给 定 M= (Mi,M 
的 条 件 下 ， 且 这 事实 也 只 是 以 概 诸 1 成 立 ， 引进 样本 相关 系数 ， 
风 据 (5.46)， 原 假 设 的 水 平 a 的 大 样本 否定 域 可 到 为 
Ir|>ua /NV n—1, (5.47). 
如 果 假 定 总 体 分 布 为 二 维 正 态 分 布 ， 则 可 得 到 水 平 a 的 确切 检 
验 。 如 所 周知 ， 这 检验 有 否定 域 


比较 (0547 和 (5 48)， 我 们 又 看 到 了 前 面 两 例 中 的 现象 ， 大 样本 
置换 检验 与 传统 检验 一 样 ， 都 是 以 样本 相关 系数 绝对 值 的 大 值 为 


否定 域 ， 但 界限 有 些 不 同 ,但 是 , 当 w>20 时 如 -:( 生 j->xay。 而 
Ma- 了 /Yn-2+&-,( 台 )>1， 放 当 很 大 时 ,这 二 者 的 界限 ， 


只 相差 一 个 数量 级 为 0( 池 -) 的 无 穷 小 六 。 


三 、 另 一 种 例子 ， 随 机 区 组 
设 有 fc 个 种 子 品种 ， 在 天 个 区 组 内 和 做 汇 验 。 每 个 区 组 内 包含 
“个 “小 区 ”， 恰 够 每 个 品种 各 做 一 次 。 
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我 们 并 不 假定 每 区 组 内 各 小 区 为 绝对 均匀 。 相 及， 小 区 之 间 
网 差异 正好 是 产生 随机 误差 的 来 源 ， 且 构成 统计 模型 的 依据 。 

我 们 很 定 。， 第 7 区 组 的 第 名 小 区 有 一 个 反映 该 小 区 的 条 件 的 
常数 cz， 了 一 1，…;7， 8 一 IC， 而 第 :个 品种 则 有 一 个 反映 
该 品种 优良 性 的 常数 9,，i = 二 1,…,c, 如 果 把 品种 i 种 在 第 7 区 组 
和 的 胡 小 区 上 ， 其 亩 产 将 为 9 十 ax，“ 品 种 无 差异 ”的 原 假 设 可 
自 为 “91=… 二 9.”。 

根据 随机 区 组 试验 的 安排 ， 在 每 个 区 组 肉 ， 把 各 小 区 随机 地 
和 垢 给 于 上 个 品种 ， 且 在 这 和 个 区 组 内 ， 随 机 化 是 独立 进行 的 。 这 
样 ， 若 以 扒 s 记 第 品种 在 第 j 区 组 内 的 (分 配给 它 那 小 区 上 的 》 
镁 产 ， 则 将 有 模型 

(Kg Ro) = 00) + Es f=1,2,* ,7 (5.49) 
六 好 二 ,C1，… ,En 租 互 独 立 ， 且 Ey 取 (ty13°°° 3 90) 的 任 一 置换 的 
报 率 都 是 1/c1. 


记 呈 ,一 吕 X/n Y=d3 Xu/ne. 以 

了 —( 区 二 这 区 (5.50) 
着 为 衡量 试验 绪 果 与 原 假 设 的 偏差 的 指标 ， 其 理由 是 ， 当 9: 一 … 
=0。 成 立时 ， 马 ,,…， 至 。 有 相同 的 期 望 ， 它 们 应 比较 接近 .这 导 
致 了 到 小 值 . 反之 ， 则 了 将 便 向 于 取 大 值 。 帮 可 以 取 

T>C 《5.51) 

作为 否定 域 .为 定 C, 要 定 出 了 在 原 假 设 下 的 分 布 。 当 原 假 设 成 立 
时 ,每 个 独立 地 乞 可 取 C! 个 值 , 旦 都 以 1/cl 的 等 概率 。 册 此 
可 知 , 了 以 等 概率 取 (c1)" 个 值 , 这 些 值 是 按 下 面 的 方法 算出 的 ;对 
每 个 j, 把 Xe ，…; 瑟 。y 任意 置换 成 一 个 新 的 次 序 , 把 置换 后 所 得 
的 结果 当 作 到 1 "到 cf， 7 一， 按 公 式 (5.50) 就 算出 一 个 
人 值 , 取 一 切 可 能 的 置换 都 作 这 个 计算 , 则 得 出 (c9)* 个 T 值 > 。 
。@ 从 对 称 性 考虑 可 知 。 可 以 把 第 一 区 组 的 6 个 信 固 定 不 予 置换 。 故 实际 上 不 同 之 亿 
识 有 tC” 一 1 个 ,例如 3 品种 4 恬 组 有 《3')3 =216 个 不 同 的 工 香 。 
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过 其 大 小 排列 为 志 之 他 … 庆 ty 入 二 (C1)". 用 原 有 的 数据 (六 ,yy 

外 (不 作 狂 换 ) 筑 出 的 了 和 值 仍 记 为 工 . 车工 关 和 <, 则 否定 原 
Pe 不 然 就 接受 原 假 设 。 

这 种 检验 仍 属 置换 检验 ， 不 过 可 允许 的 置换 受到 限制 ， 只 能 

在 一 区 组 内 作 轩 的， 而 不 能 把 不 同 区 组 肉 的 值 彼此 千 换 , 这 检验 
无 须 通 过 另 一 统计 量 进 行 条 件 化 ， 故 并 非 条 件 检验 . 

以 上 讨论 的 模型 相当 于 俩 5.2 的 模型 2 也 可 以 引进 类 似 于 
例 5.2 模型 1 的 模型 ， 这 就 是 在 84.3 的 二 起 中 已 讨论 过 的 模型 

y= bei=ly C7 = (5.52) 
sb 分别 反 据 品 种 组 区 组 效应 , es 为 卫视 误差 . 设 NC 个 84 独立， 
问 分 布 ， 其 公共 分 布 到 末 绍 。 g MM 记 (Xs, 天 of) 的 次 序 统 
计量 ， 而 M 一 (Mi ,Ms)， 了 的 定义 仍 恕 (5.50), 剂 容易 看 
出 在 > 定员 的 条 年 下 , 荆 的 条 性 分 市 这 与 浇 们 刚才 描述 的 一 
穴 ， 济 深 可 以 用 完全 一 样 的 方式 去 答 验 厌 假 设 “ 员 种 无 差 剧 ”, 当 
然 ， 一 有 字 质 的 不 沿 。 即 一 个 是 无 条 件 丛 验 河 另 -一 个 是 条 件 
检验 ， 共 中 入 计量 的 公 而 的 意 义 不 同 ， 

当 C 或 4 不 很 小 时 ， 直 汉 通 过 计算 荆 的 一 切 人 多 去 去 进行 术 芍 ;全 
计算 量 大大， 以 下 我 们 考虑 三 (在 诛 假 设 下 ) 的 极限 分 布 。 
上 面 指出 的 ， et BR 条 件 化 太 另 一 为 条 人 竹 
化 ， 故 以 下 讨论 的 极限 分 布 ， 也 可 以 是 通常 的 极限 分 布 ， 或 是 在 
给 定 可 时 全 的 条 件 分 而 的 豚 限 分 辑 一 槛 型 高 定 ， 亿 
其 最 后 形式 并 无 差别 。 为 确定 计 ， 以 下 我 们 就 本 有 段 开头 揽 述 的 模 
型 来 讨论 ， 

证 邱 一 (有 0 一 1 据 本 模型 假定 ，E， 
ca 独立 。 而 在 愿 假 没 成 立时 (有 汪 。) 以 狐 率 1/c! 取 
《cyGfo) 的 任 一 置换 。 由 此 ， 径 过 简单 计算 ， 不 难得 到 


忆 (ci) 一 (Grey 4)!’s oan 
Cov(£y) =S*4, S?= 二 袜 (Qs ~ Qs)?, 
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1 Sk 
一 T， i | 


记 玉 2 DX/nc. 则 (6s Eé/) 一 12( 吕 一 站， 吾 。 


1 Ff= 
—), 4 ‘+ 52, 则 在 一 定 条 件 下 可 以 证 明 , 当 刀 yo 
会 _ 本 由 PP 
-1 人 2 (es Et) —>NO,D) 《5.53) 


其 中 了 为 c 一 1 阶 单位 阵 。 倒 如 ， 在 下 面 两 个 条 件 之 下 ， 
(C1) {axk:7 一 1,2，…? 天 一 1 有 界 ; 
(2) $,—> co YN 0, 
可 以 证 明 (5.53)。 这 两 个 条 件 从 实用 的 观点 看 都 很 自然 而 合理 。 
我 们 把 这 个 结论 的 证 其 放 在 本 章 附录 中 ， 以 免 打 汤 此 处 的 手 述 。 
由 (5*53) 得 出 
WR a Rd tN 
2 i 
Wn 19 (53:31 


了 了 
直 料 验证 易 知 A 下 的 (19 人) 元 为 2CC 一 1)fesy 而 全 ,站 为 (Cc 一 1)7e， 
当 ! 关 7， 于 是 不 难 算出 (5.54) 的 左边 (在 计算 中 用 到 马 “ 袜 ， 


有 二 Ch) 34 del GC—1? Mat =1 ;hi a 


一 所 ?一 0) 为 机 

人 (5.55)》 
这 证 X Xe 即 上 文 的 gy 二 总。 zagC， 而 全 是 (5.50) 证 
义 。 从 (5.50) 看 出 ， 当 天 充分 大 时 ， 记 假设 距 换 伍 验 的 否定 域 ， 
近似 地 可 取 为 

T>(c—1)" 2 (Xu (9), 《5 56》 
记忆- 久 时 CA 部品 多 有 

STK XD) UT, 


于 是 {5:56) 可 上 夏 写 为 
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n—1 
(Cc—1)n— Xe ta) 


-一 -一 > Xi(a)。 (5'57) 
ar 

< 但 左边 的 统计 量 ， 就 是 在 通常 随机 区 组 设计 的 方差 分 析 中 ， 为 检 

验 “ 因 素 效 应 为 0” 时 的 五 统计 量 ， 只 是 在 通常 方差 分 析 中 ， 右 

边 的 界限 为 百 。 :ecocifa)， 当 ?>co 时 ,这 个 量 , 以 及 (5.57) 


的 右边 ， 都 趋向 于 -二 Xi(a)。 因 此， 当 半 很 大 时 。 本 问题 的 


大 样本 置换 检验 与 传统 的 下 检验 很 接近 ， 

我 们 这 里 没有 讨论 置换 检验 的 大 样本 功效 问题 。 关 于 此 问题 
可 参看 陈 希 顺 “数理 统计 引 论 * 86.5 的 一 段 。 但 我 们 至 少 可 以 看 
到， 在 前 面 讨论 的 儿 个 重要 例子 中 ， 置 换 检验 与 传统 检验 有 相当 
的 大 样本 功效 ， 


附 : 


一 、 定 理 5.1 的 证 明 

定理 5*1 的 证 明 ， 在 文献 中 见 到 的 有 两 种 方法 ， 一 种 与 定理 
2'2 和 3:1 的 证 明 方 法 相似 ， 是 通过 从 其 中 分 出 一 个 独立 和 ， 铺 
下 的 余 项 证 明 为 当 2->co 时 依 概 率 收敛 于 0， 而 前 者 则 用 通常 的 
中 心 极 最 定理 去 处 再 。 担 此 法 用 于 置换 统计 县 甚 为 复杂 ， 故 我 们 
在 下 文 将 介绍 男 一 种 方法 。 此 法 虽 简 单 ， 但 也 要 基于 概率 论 上 一 
个 著名 的 结果 ， 此 结果 用 于 正 态 分 布 的 情况 有 如 下 述 ，。 

标准 正 楚 分 布 尺 (0,1) 的 7 阶 和 矩 为 ， 当 7 为 奇数 时 为 0，7 为 
偶数 时 为 (7 一 11 二 1.3.5…(7 一 1)， 设 {6} 为 一 串 随机 变量 ， 
.其 各 阶 矩 存在 有 限 。 以 pwr 记 五 (所 )。 落 

ima ={ A 

i (? 一 1)11 当 7 为 代数 ， 《54.1) 
则 当 7 >c=o 时 ，en 依 分 布 疏 化 于 和 N(0,1). 
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现 以 L, 记 由 (ny, Cnn) 利 《Dai ,Dun) 类 定 的 线性 置换 统 : 
计量 (定义 5.3),ls 和 0? 为 其 数学 期 望 及 方差 。 因 为 对 任何 常数 
ci Cs 各 4d 天 0, ds 大 0, 把 Gu 改 为 dias 十 C1 并 把 Bs 改 为 dbwi 十 
Cs 后 ， 不 改变 (LL, 一 人) /on 这 一 点 很 易 验 证 ， 留 给 读者 ) 。 故 如 记 .- 

A Br = b',,7, 4 二 1， 2, 本 
则 不 失 普 遍 性 可 设 

4 一 也 一 0， A = B., =H. (5A.2) 

据 此 ， 由 {(Qs3 Gan) :天 一 1 2 和 {(po Bo) 二 1 ， 

Am=O00), B=00N"), f=3, 4, (5A.3): 
前 一 结论 是 条 件 WW 的 直接 结果 .后 一 条 可 证 明 如 下 ， 即 7 之 3，- 
+ 为 整数 。 记 Cu 一 sy Mn, C=—max|cn|, Gu 一 Ca cay z 一 1， 
9 [z 击 出 


py =1{ 出 B,, =n 推出 》 


4 二 1 


co 一 0( 肌 TCD “9 bnn) :N=1, 2， … 和 小 满足 条 件 N 推出 )，， 


12.| 1, 一 1， “ss Hs 


现 有 
0 | lor Slablts 
4- i=1 i=1 = 

因 # >>2 而 Iadnil 1， 有 |ds|" 天 do 故 


| 只 r 、 9 1 + n 
| 之 b., EN co Sd, = nA, * 之 ( Cn 
t= = 3 


办 
I 人) 则 人 
:一 C > et 1 


由 于 C0， 证 明了 B=0(n"?). 
现在 据 (54.2) 有 l=0,，03 一 -而 (一 1 )/ 0。=Lw 


~ 2 了 把 二, 写 为 (5.16) 的 形式 ， 其 中 对 要 改 为 we。 而 
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攻 < 5 6 以: 祈 况 丈 1 取 (on i bn) 的 任 一 置换 。 
有 五 (Z.)=0，1， 当 7 一 1，2， 与 (54.1) 的 极限 符合 。 取 和 
然 数 > 关 3。 有 ( 记 几 一 尼 TCZEaA Nn 一 1/ 1)'}) 


zk 有 (CL)=E(Autt :+ unt, ) 


p> 2 > Coil Unis Gi “Gar 》 
工 一 上 73- 
=- 也. Ss Es"" ‘em) A ‘em EE ‘em ) 


C54.4) 


(注意 Go 与 4 有关， 省 略 了 足 标 % ) 
了 表示 求 和 的 范围 为 。 ii，…， 识 是 1 …， 闻 中 任意 取 加 个 不 
周 的 数 糙 成 的 全 部 排 烈 。 而 
CC75et…en)》 一 { 把 7 个 相 异 物件 分 成 玉 堆 ， 各 谁 物 件 
个 数 为 e1，…，em 朋 不 计 次 序 之 不 同 分 法 ( 例 如， ?=5， 
@1=2,6=3. WW{ CAB), (CD,E)}5{(C,D,E), 
《 及，B ) } 表 示 一 神 分 法 而 人 菲 两 种 ) }， 
,之 ， 雪 术 对 所 入 这 祥 的 自然 数 { el Cm ) 求 和 有 和， 2 十 … 十 em 
一 #*， 在 得 出 《54.4 ) 时 我 们 用 到 了 根据 (5，…，és) 的 对 称 
住 《 即 对 任 一 置 找 i， ，in，。( Crass Ci ) 与 CE ,Gn ) 
河 分 布 ) 而 得 出 的 下 述 事 实 ， 
Ele 一 2 4)， 当红;… yim 两 汤 不 回 。 记 
Bee = 了 
2 
,对 的 意义 与 前 周 ， 则 
Ete een 》 = 及 一 1)》 (n on) 1B,,.,, 
(lo00))n"D, .,., 
此 姓 90C1) ->4， 当 一 52. 由 工 式 及 ( 5 如 .4》， 利 
240。 


ku 一 (1+oC1)) 马 了 A B 


a oI™ Cm Otm 
CC FE J (5A.5) 
现 欲 证 
lim Hmto A 0 


sf 车 7 偶数 ，7 = 二 ?7/2， Qi" m2 
0， 其 他 情况 《54.6 )》 
车 (54.6 ) 已 证 ， 则 轩 之 立即 得 出 

是 9 2，…，2)》， 当 ”为 个 数 ; 

im ur 一人、 _、 

Wm 0， 当 了 为 奇数 ， (54A.7) 
而 易 见 CCr3 2，…，2 1) 二 《7 一 1)!11， 当 7 为 偶数 。 事 实 上 ， 
因 堆 不 计 次 序 ， 第 一 个 物件 所 在 的 堆 ， 可 在 剩 下 的 + 一 1 个 中 任 
选 一 个 与 之 配合 ， 选 法 有 ?+ 一 1 种 。 放 用 归纳 法 立即 得 出 上 述 结 
果 ， 由 此 结果 及 C 54 7 ) ， 立 即 得 出 (54.1 》， 而 定理 每 证。 


沪 证 (54.6)， 考察 A, 1 tm* 前 面 已 记 4.,= 0 


朋 。 -es 可 表 为 一 些 形 如 4 的 项 的 线性 组 合 。 此 处 
7 …， 思 缘 为 自然 数 ， 和 为 九 十 十 jm 二 7， 而 有 所 HM, 注意 到 
A 一 0， 可 设 刻字 2，…，j, 之 2， 分 两 种 情况 ，1， <y/2， 这 
时 由 (5 有 4.3 ) 第 一 式 ， 有 Agniy, nO 〇 (1") 2, HM>7/2. 
这 时 ， 利用 J1s ”9 fa 簿 之 2 而 和 为 ?, 由 《 5A.3 ) 第 一 式 知 
0 《nn 7)， 特 别 著 加 =7?/2 而 j=*…= 扩 二 2， 
则 hrmn=172， 对 Bo 6 如 法 炮制 ， 令 Br 一 吕 b',， 把 
已 .ce 表 为 一 些 形 如 Bi,，。…By,s 的 项 的 线性 组 合 ， 因 为 B1, 二 0， 
知 可 设 六 ，…， 都 关 2， 仿 上 述 推理 ， 利 用 《 5 有 4.3 ) 第 二 式 ， 
知 Brn…Byn 一 0《R' 人 22) 当 m<r/2( 仍 须 利 用 有 mx). 车 
02>r/2, 则 由 所 ;… js 此 关 2 知 PN, 故 下 ps 一 0 ) ， 
送 加 二 7/2 时 (这 时 7 必 为 偶数 )， 只 有 在 天 = 因而 且 广 一 … 一 : 
“241， 


-加 =2 时 ， 才 有 QQ 一 1 ， 否 则 406…4y,n 二 0《H"”)。 综 
合 上 述 即 得 ( 54.6 ) ,定理 证 毕 。 

二 、 定 理 4.4 的 一 个 较 弱 形式 

利用 定理 5'1 不 难 证 好 下 而 的 结 

定理 4.:# 设 把 定理 4.4 的 条 件 《1 ) 强化 为 : “{(Cnis “py 
nn ) :4 一 1，2，…} 满 足 条 件 WW”, 则 定理 4.4 的 结论 成 立 。 

因为 由 条 件 WW 可 推出 条 件 N， 放 本 定理 比 定理 4.4 级 一 
些 ， 但 在 许多 有 关 秩 方法 的 应 用 中 、 本 定理 的 条 忻 常 能 满足 。 如 
在 两 样本 问题 中 ， 有 (CCams …， Cam) = 二 (0,…,0,1，…,1)， 
其 中 0 有 有 个 ,1 有 js 个 ,pr 十 12 二 1。， 前 已 指出 ， 若 存在 和 之 0 使 
对 一 切 % 有 和 所 n,/4 所 1 一 和 ， 则 条 件 WW 满足 。 在 一 般 两 样本 
问题 中 ， 这 条 件 总 可 认为 是 满足 的 ， 形 式 上 说 ， 为 满足 定理 4.4 
的 条 件 (1 ) ， 只 须 1 一 co，?ja 一 co. 

为 证 明定 理 4.4， 根 据 定理 5.1，、 只 人 须 证 下 述 结 论 ， 芳 95) 
为 定义 在 《0，1 ) 区 间 的 非常 数 的 平方 可 积 计 分 函 数 ， 而 Cu= 


9 (十 )， 人 
满足 条 件 NN， 事实 上 ， 因 为 =9, 一 9,， 共 中 9, 和 9%, 都 是 非 降 
的 平方 可 积 函 数 ， 故 不 失 普 记性 可 设 罗 本 身 非 降 。 记 

5=|9 Cu) du 
悍 由 纪 在 (0，1 >》 可 积 ， 易 见 
SC ) :>| (9(z) Fdu>0, (54.8) 


3 
.上 述 积分 大 于 0 是 根据 8 在 (0，L1 ) 不 恒 为 常数 的 假定 。 又 由 9 
非 降 ， 知 

We (Cu On) :<(9 (5 ) ” (#7)) 


<29 (7)+ 29:( 二 Th) (54.9) 


2242 。 


有 两 种 情况 ，-- 种 是 9 在 1 的 附近 有 界 。 这 时 8 2 ) 一 0 (1) 
一 o (7) .一 种 是 iim 9(# ) 一 =. 这 时 当 # 充 分 大 时 有 9( 二 让 
>0. 故 | 。 me (xD du > 二 I? 《万 -但 另 一 方面 ,由 9* 可 


92 (UD) du->0 当 H>co。 这 证 明了 PC 中) 


oC(n)., 


一 0(8#)。 同 理 证 明 : 


=0(n). ee 得 


max( Ci—0,) :=0Cn), (5A.10) 


PS | 


把 (54.8) 和 (54.10 ) 结合 ， 即 得 
lim{max (Cu 一 5) */S Co — 5, ) 1}=0, 


于 是 { CCnis 人 Cn ) :二 一 1 2， …} 消 足 条 和 件 N. 定理 证 毕 。 

三 、(5.53 ) 式 的 证 明 

这 个 证 明 用 到 概率 论 中 之 一 周知 的 结果 车 和，54，… 为 一 
囊 zx 维 的 随机 向 量 ，a 为 1 维 常 向 量 而 A 为 m 阶 非 负 定 方 阵 ,车 
对 任意 的 mm 维 非 o 常 向 量 和 都 有 NE, 党 N (Ma，WAA)， 则 必 - 
有 ,ON (Ca, A). 

根据 这 个 定理 ， 为 证 《5'53 ) ， 只 需 证 明 ,， 对 任何 c 一 1 维 : 
非 o 常 向 量 1 ， 有 


GNA DE EL -NG0 NM) (541 


不 妨 设 XXX 王 1， 无 损 于 普遍 性 ， 
令 
WS NA Es— Es ) j=1, + Hs 
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则 名 ?一 捉 期 望 为 o 的 独立 随机 变 基 ， 又 
Var ( i ) 一 9 NMA-Y2AS A 3- 5 
此 处 用 了 NA=1 0 记号 均 兄 《5.53 》 式 前 面 几 行 )。 于 是 
Bi — BVar (mu ) 一 到 为 3 一 1， 
f=1 = 
又 据 假 是， 号 nco 且 {Er， cea， …} 一致 有 界 。 故 
lim max j nj 一 0， 《54.12 ) 


R30 了 2 


因此 
SE Smaxps lS El7,s)? 
43=1 了 过 了 下 j=1 
~ max JM,sl 3S Var (C1) = max|Y,;|, 
i4< jn 2 工科 和 六 
《54.13 》 
让 (54.12》 和 《54.143)7， 有 
Ho 多 El /Be*}-0, 
于 症 ， 概 据 JIAIYEOB 中 心 极 限定 理 ， 妈 和 若 当 n=20 时 
Sm LN G0, 1) 
于 即 (54:11 ) ， 于 是 证 明了 所 要 结果 。 


习 


5-1 温 据 85:1 中 的 几 个 例子 ,总 结 出 ;在 何 种 情况 下 可 以 使 
用 由 全 部 祥 本 作 无 恨 制 置换 订 入 成 的 轩 置 es 并 以 此 说 明 :< 对 
匠 巾 心 9=0” 这 个 原 假 设 不 能 用 无 限制 的 置换 也 验 去 检验 之 。 

5-2 设 筷 ，…，。 和 了 ，7os 分 章 是 摘自 分 布 F(X) 
和 下 (x/8 ) 的 简单 样本 ， 分 布 未 知 。 试 构造 检验 问题 “9 =1 
< 一 > 9 六 1” 的 一 个 绽 换 检验 。 

5-3 学 碟 例 5.1 的 一 般 情 况 ， 刀 、 召 分 别 取 太 和 “个 水 平 。 
-把 中 xx 对 联 志 守 作 如 下 形式 : 
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号 
了 BI1 万， BI 
4 


Al Ki -= Nig = Kl ] M1 
| 
1 
[ 
| 


Ni Ni 1 Xn Mi 
A ] 区 
各 | # 


Ni ‘NN Wo N; | 


其中 Xi 是 在 4 次 测 人 之 观 察 市 ， 有 到 A,、 召 到 B, 的 次 数 ， 
2 分别 是 行 和 与 列 和 ， 

证 研 ”在 原 假 设 “44、 刀 两 属性 独立 ”成 立时 ， 在 给 定 “ 一 
* 7 ， 机 M1 Vs "yg Mi) 的 条 件 下 ， 矩阵 
的 条 件 分 布 具 与 有关， 这 就 是 说 ， 
若 以 忘 和 9 分别 记 4 和 By 的 黎 率 (当天 假设 成 立时 ,(4,, By) 
的 慨 率 为 办 9; 》， 虽 上 述 条 件 分 布 不 依赖 于 Pp.，*…，pP。 与 01 
ro 

此 结果 可 以 像 例 5'1 那 祥 通过 计算 条 件 概率 直接 证 明 。 另 一 
个 汪 法 是 用 妇 钠 法 , 即 证 明 如 题 中 之 结论 对 kb ,IL 是 人 所 
大 十 一 1 时 成 立 ， 则 必 对 名 7 成立、 

5-4 举例 说 明 ， 若 不 定理 5:1 中 只 假定 两 序列 都 满足 条件 
人 入， 则 C5:23 ) 可 以 不 成 芯 。 一 个 例子 如 下 ， 取 〔〈Gnl，…，Con) 
一 (有 pp) 一 (1，…， 1， 0，…， 0)， 其 中 1 和 厦 
Lm” 个。 

5-5 但 是 ， 也 存在 这 样 的 例子 ， 共 中 两 序列 都 只 满足 条 件 
NN 而 没有 一 个 满足 WW， 但 (5-23 ) 依 汽 成立。 利用 定理 4.4 
可 举 出 这 样 的 例子 ， 取 

《es 1 0，…'，0)，1 有 571 ?1 个 
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= {+1Y /f+1\ se WR Ny 
Co (等 人 
试 就 此 两 序列 很 据 定理 4.4 证 明定 理 5.1 的 (5.23 ) 式 ， 并 证 明 


上 述 两 序列 都 只 满足 条 件 N 而 非 条 件 WWW， 
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第 六 章 ”概率 密度 信 计 ， 
非 参 数 回归 与 判别 


§6-1 概率 密度 估计 


概率 密度 函数 ， 常 简称 为 密度 函数 以 至 密度 ， 是 概率 论 的 最 
重要 概念 之 一 。 吕 然 在 统计 学 上 我 们 常 提 * 总 体 分 布 * 这 个 名 词 ， 
其 实 ， 使 用 密度 的 概念 去 规定 或 刻 划 一 个 统计 模型 不 仅 常见 ， 且 
比 使 用 分 布 概念 更 合适 和 方便 。 只 要 想 想 下 面 这 个 情况 ， 在 各 种 
实际 问题 中 ， 变 量 取 值 的 分 布 呈 现 “ 两 头 小 、 中 间 大, 左右 对 
称 ” 这 种 “ 正 态 类 似 型 > 者 ， 为 数 颇 多 。 这 些 特 点 在 密度 函数 的 
图 每 上 -~… 目 了 然 ， 而 在 分 布 孟 数 的 图 象 上 则 不 然 ， 

密度 估计 问题 ， 就 是 要 通过 从 总 体 中 抽 得 的 料 本 去 估计 其 概 
率 密度 函数 f， 这里， 估计 的 对 象 是 一 未 知 函 数 f. 但 在 实际 
操作 中 ， 总 可 把 问题 说 成 ， 固 定 一 已 知 的 x 值 ， 要 个 计 二 在 工 
谈论 密度 的 点 估计 、 区 间 估 计 等 等 。 

密度 估计 在 统计 上 应 用 甚 多 ， 现 在 来 看 第 二 章 中 讨论 过 的 用 
样本 中 位 数 请 去 作 总 体 中 位 数 久 的 区 间 佑 计 问 题 。 若 用 命 的 渐 近 
正 态 性 并 使 用 大 样本 区 疗 估 计 ， 则 需要 作出 密度 f 在 炉 点 的 值 
了 《14 ) 的 估计 ,在 这 个 及 类 似 的 例子 中 ,需要 作出 未 知 密度 了 在 
一 个 点 以 至 一 定 范 围 内 取 值 的 数值 估计 。 在 有 些 问 题 ( 特别 是 在 
有 关 选 定 统 计 模型 的 问题 ) 中 ， 只 需要 对 密度 图 象 的 特征 有 所 了 
解 。 例 如 ， 有 一 批 现 察 数据 。 考 虑 用 正 态 模 型 去 分 析 之 ， 则 需要 
检验 一 下 正 态 模型 是 否 可 用 。 有 一 些 拟 合 优 度 检验 可 用 于 此 日 
的 。 但 一 个 在 直观 上 更 易 理 解 和 被 接受 的 方法 是 ， 作 出 总 体 密度 
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估计 的 图 象 。 车 此 图 象 大 体 上 具备 “两 头 低 、 中 疝 高 , 左右 对 
称 ” 的 特点 , 则 对 焦 用 正 态 模型 感到 比较 放心 。 当 然 , 一 般 说 来 ， 
密度 个 计 的 图 象 是 通过 对 密度 画 数 作 数 值 估计， 再 用 之 作 图 得 到 
的 。 下面 荆 一 个 实际 的 例子 。、Bowyer 在 1980 年 一 项 工作 中 ， 
观察 问 魂 号 的 钢 球 高 度 ， 得 到 15000 个 数据 ,东北 构造 钢 球 高 度 
的 一 个 密度 衙 计 ， 其 图 莹 如 图 6.1。 
从 莉 赔 可 见 ， 高 度 的 分 布 是 岗 态 的 ， 9 
有 一 个 很 长 的 低 尾 部 。 而 分 布 的 钱 尾 oil 
郊 对 应 着 钢 球 的 四 陷 处 ,这 个 估计 至 “| 
示 出 了 正 态 分 布 之 不 适合 。 由 二 密度 om 
佑 计 图 象 很 直观 和 易于 理解 ， 从 侧 可 "8[ ， 
以 解 稼 数据 ， 成 为 印证 或 支 朱 某 此 科 5 10.15 20 25 30 37 4 43™ 
学 技术 结论 的 重要 工具 . 总 度 单 位 ， 祝 米 

当 谈 到 密度 生计 时 ， 我 们 总 是 指 ”图 6*1 钢 球 高 度 的 密度 估计 
未 知 密度 函数 f 的 所 属 类 型 并 不 知道 的 情况 。 当 然 ， 我 们 可 以 
施 吉 某 些 一 般 狂 的 限制 ， 如 术 知 密度 为 连续 的 、 单 峰 的 ， 或 在 一 
定 区 间 之 外 为 0 等 等 。 因 此 ， 这 是 一 个 典型 的 非 参 数 统计 问题 。 
这 可 以 从 反面 去 理解 ， 设 想 我 们 已 知 或 认定 未 知 密度 扩 属 于 正 
态 类 型 ， 则 f 只 取决 于 两 个 参数 一 期望 & 和 方差 oz， 这 时 ， 
与 其 去 谈 估 计 了 的 问题 ， 不 如 说 成 是 估计 这 泵 个 参数 的 问 题 更 
简便 

一 、 几 种 重要 的 密度 估计 方法 

密度 估计 的 方法 很 多 。 这 里 我 们 按照 历史 演变 的 硕 序 选择 几 
种 杰 应 用 上 较 重 要 的 加 以 介绍 。 

1. 直方 图 法 


@@ 车 以 0GE,502 ) 记 入 CH,02 ) 疯 审 度 ， 作 出 共和 63 的 估计 公 与 人 ， 可 
刷子 (xi 从 ,G2 ) 去 合计 (zc2 ) ， 不 过 ， 我 们 也 可 以 宜 按 把 了 《xh,0? 》 作 
为 竺 计 对 象 。 例 如， 了 f(x} ,52 ) 的 最 小 方差 死 偏 估计 并 毕 f(x; 受 ,S2 ) ， 六 管 叉 
各 2 分 别 是 和 6? 的 最 小 方 蔡 无 偏 稍 计 ， 这 样 做 在 实际 问题 中 获 益 不 多 ， 放 不 大 
位 得 采 钾 ， 匠 其 告 计 方法 文 为 复杂 化 了 ,无 论 如 何 ， 这 并 没有 超出 参数 估计 的 范围 。 
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此 法 基于 概 窜 密度 的 一 个 基本 人 性质， 随机 变量 蕊 如 有 密 度 
了 , 则 下 取信 在 区 间 [a, 幻 的 概率 Pa<X<D) 等 于 | 大 % ) dx. 
车 有 攻 的 简单 样本 1, yy 让 由 Pu 2<YX<ab ) 可 用 
#{i:i<i<n, oSo}/n 
去 估计 。 因此 ，P (a 所 XX<5)/ (2b 一 a) 即 


[if Cr) dx/ ba) 可 以 用 
#{:1 ISRn, aX,<b}/n(b—a) 
去 估计 : 当 0 一 2 充分 小 时 ， | Cx)dx/ (68-4) 可 近似 


代表 fCx ) 在 区 间 [a，bJ 上 之 值 . 这样 就 得 到 了 的 一 个 个 
计 , 关于 上 述 原理 ， 这 方法 可 描述 如 下 ; 选择 一 个 适当 的 正 数 
妈 ， 把 全 直线 分 为 一 些 长 为 有 的 区 间 。 任 取 这 些 区 间 之 一 ， 记 为 
1. 对 XEI, L 

#{i:1<i<n, RET /nh 《6-1》 
作为 《x%》 的 信 计 。 这 个 佑 
计 的 图 形 是 一 个 边 长 为 中 的 
附 梯 形 。 若 从 每 一 问 点 向 底 壹 
作 垂 线 以 构成 矩形 ， 则 得 到 一 
个 如 图 6.2 的 图 形 。 它 是 由 一 


些 直 立 的 矩形 排 在 一 起 而 成 
的 ， 以 此 得 到 直方 图 之 名 。 0 
在 图 6.2 中 ，O 是 分 割 点 图 6.2 直方 路 


之 一。 当然 也 可 预先 选 定 任 一 点 4 为 分 制 点 。 这 时 所 有 分 制 点 
都 有 4 二 th 的 形式 ，i 一 0， 士 1， 圭 2，…， 重要 的 是 有 的 选择 。 
户 太 大 了 ， 平 均 化 的 作用 突出 了 ， 而 沽 没 了 密度 的 细节 部 分 。 太 
小 了 ， 岂 受 中 机 性 影响 太 大 ， 而 产生 极 不 规则 的 形状 、 玉 的 选择 
无 现成 内 则 可 循 ， 一般 只 能 说 ， 应 选择 一 个 适当 的 卢 以 平衡 上 述 
两 种 效应 。 总 的 渤 ， 当 样本 大 小 六 大 时 ， 瑚 可 取得 小 一 些 。 
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在 关于 直方 图 的 理论 讨论 中 ,我们 常 假定 区 间 分 割 ( 即 上 文 
Qa、 也 的 选择 ) 是 在 考察 样本 之 前 就 定 下 来 的 ， 因 此 无 随机 性 . 
这 就 使 理论 简化 了 。 但 在 实际 操作 时 不 一 定 能 作 守 这 个 规定 。 例 
如 ， 一 批 样本 可 能 较 集中 在 CO 点 附近 ,而 在 较 远 轴 目 方 个 数 较 
少 . 这 时 ， 有 条 件 把 密度 f 在 点 附近 之 值 千 计 得 细 一 些 ， 而 
在 远 处 则 只 能 满足 于 较 粗 的 估计 ,就 基 涪 ， 我 们 可 能 取 一 些 不 等 
长 的 区 间 ， 区 闻 长 度 在 O 附近 很 短 而 在 远离 O 点 处 则 较 长 。 然 
后 在 每 一 区 间 工 内 按 《6.1 ) 式 作 出 f 的 估计 . 这 时 ， 区 疝 的 位 
. 管 、 长 短 都 是 在 参考 了 样本 以 后 决定 的 ， 政 有 随机 性 . 这样 的 直 
方 图 估计 称 为 “Data~ based” 的 直方 图 估计 。 其 理 论 较 a 入 
都 比 随机 的 通常 直方 图 信 计 复杂 得 多 ， 本 书 将 不 加 讨论 ， 

直方 图 估计 的 优点 在 于 简单 易 行 ， 且 在 2 较 大 因而 容许 h 
较 小 的 情况 下 ， 所 得 图 象 尚 能 显示 密度 的 基本 特征 .但 也 有 明显 
的 缺点 。 它 不 是 连续 函数 (这 可 以 通过 适当 地 修 匀 来 解 并 )， 且 从 
统计 角度 看 一 般 说 效率 较 低 。 例 如 ,在 这 一 方法 下 ,每 一 区 间 中 心 
部 分 密度 估计 较 准 ， 而 边缘 部 分 则 较 差 。 综合 种 种 因素 ， 我 们 仍 
可 以 说 ， 直 方 图 合计 不 失 为 一 个 有 用 而 基本 的 密度 知 计 方法 ， 

2、 Rosenblatt 法 

为 克服 上 文 提 到 的 直方 图 法 的 一 个 缺点 一 一 对 每 个 区 间 边 缘 
部 分 密度 位 的 信 计 较 差 ，Rosenblatt 在 1955 年 提出 了 一 个 简单 
的 改进 。 指定 一 个 正 数 及 如 前 ,对 每 个 x， 以 1 记 以 + 为 中 心 ， 
长 为 及 的 区 间 ， 即 [ x 一 也 ， x+ 去] 。 及 五 作为 (6.1 ) 式 中 


之 了 ， 算 出 之 值 作为 了 在 # 点 处 之 值 (x ) 的 估计 。 这 就 是 
Rosenblatt 估计 。 我 们 用 广 (z) 佐 (xz 大  ) 表 示 
这 个 估计 ， 则 有 - 

fr (x) il icn, XET}. 《6.2 ) 
Rosenblatt 法 与 直方 图 法 不 同 之 处 仅 在 于 ， 它 事先 不 把 分 割 区 间 
定 下 来 ， 而 让 区 间 随 着 要 估计 之 点 x 跑 ， 使 x 始终 处 在 区 闻 之 
ea 230 。 


中 心 位 置 ， 市 获 臻 较 好 的 效果 。 理 论 上 可 以 证 明 ， 从 佑 计量 与 被 
估计 及 接近 的 数量 级 上 看 ，Rosenblatt 方法 确实 优 于 直方 图 法 。 

3。Parzen 的 核 估 计 

细心 的 读者 不 难看 出 。，Rosenblatt 居 计 仍 为 一 阶梯 函数 ， 只 
不 过 与 直方 图 信 计 比 起 来 、 各 阶梯 之 长 不 一 定 相同 而 已 ，、 仍 非 连 
续 则 线 。 另 外 ， 从 Rosenblatt 估计 的 定义 中 看 出 ， 为 估计 了 在 
4 点 之 值 f《(%)， 对 与 % 在 一 定 距 离 《 确切 地 说 ， 是 有 /2) 内 
的 样本 ， 起 的 作用 一 样 ， 而 在 此 以 外 则 启 不 起 作用 。 直 观 上 可 以 
设想 ， 为 信 计 上 (CxY)》， 与 4 靠近 的 样本 ， 所 起 作用 似 应 比 远 离 
+ 的 样本 要 大 些 . 这 些 在 Parzen 于 1962 年 提出 的 核 估 计 方 法 中 
都 得 到 了 体现 . 

为 介绍 Parzen 的 思想 ， 我 们 先 将 《6:2) 人 
引进 一 个 函数 


(1, 当 -~- 工 <x<L 
到 (xz I 2 < 《6.3 ) 
2， 包 
DT， 革 这 和 
则 《6.2 ) 式 可 收 写 为 
蔗 
f(r) = 去 芝 Wi (6.4 》 


《6':3) 和 完 义 的 到 是 Ri 上 的 密度 度 昨 获 ， 但 是 一 种 特殊 的 密度 函 
数 ， 即 均匀 密度 。Parzen 的 推广 即 在 于 去 掉 这 一 特殊 性 ， 而 容 
许 W 可 以 为 一 般 的 密度 函数 。 下 面 我 们 给 Parzen 的 核 估 计 下 
一 个 正式 的 定义 。 

定义 6-1 设 五 (-) 为 R 上 的 -- 个 给 定 的 概率 密度 函数 ， 
加 >>0 是 一 个 同 和 0 证 尽 


rr /和 一 友和 
fx)= 2 名 全 二 上 (6.5) 


称 fs 为 总 体 未 知 密度 f 的 一 个 核 秸 计 ， K 为 核 通 数 ， ,为 窗 
宽 。 
这 一 定义 考 目的 是 太 为 一 维 的 情况 。 若 天 为 4 维 ， 只 括 
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将 《 6:5) 式 中 分 母 fh 改 为 jy 及， 又 佐 定 义 可 见 ，Rosenblatt 信 
让 (6.2 ) 是 核 舍 计 的 一 个 特例 ， 其 由 及 (… ) 由 (6.3 ) 式 记 确 
定 。 这 里 需要 对 上 述 定义 作 几 点 注解 。 

(1)“ 窗 宽 ”(Window-width ) 这 个 这 是 从 核 估计 的 等 
形式 ( 63)、( 6-4) 中 如 的 合 义 派生 出 来 的 。 我 们 从 公式 (6*3 ) 
( 6.4) 可 以 解释 Rosenblatt 估计 为 ， 对 每 个 观察 X, 限制 在 高 为 
动 -” 宽 为 如 的 " 窗 * 内 ， 而 估计 代为 2 个 这 种 “ 窗 ” 之 和 . 因而 
勾 正 是 这 7 个 “ 窗 ” 的 公共 “ 窗 宽 ”参数 。 

( 2 ) 窗 宽 有 的 作用 。 由 定义 可 知 ， 核 估计 既 同 样本 有 关 ， 
又 问 核 下 及 窗 宽 hw 的 选取 有 关 。 在 给 定 样本 之 后 ，- 个 核 佑 
计 性 能 的 好 坏 ， 到 决 于 核 及 窗 宽 的 选取 是 否 适 当 。 从 直观 上 看 ， 
核 估计 在 每 观察 点 尺 , 有 一 “碰撞 ”"， 信 计 刀 是 这 些 :< 碰 擅 ?之 和 ， 
核 玉 确定 了 每 一 个 “碰撞” 的 形状 ， 面 加 则 决定 了 “ 碰 擅 ” 


的 宽度 ， 当 如 选 得 过 大 ， 由 于 经 过 压缩 变换 世人 :之 后 使 分 


布 的 主要 部 分 的 某 些 特征 〈《 如 多 峰 性 ) 被 掩盖 起 来 了 ， 估 计量 有 
较 大 偏差 ， 如 有 & 太 小 ， 整 个 佑 计 特 别 是 尾部 出 现 较 大 的 于 扰 ， 
从 而 有 增 大 方差 的 趋势 。 因 而 在 实际 使 用 核 估计 时 。 如 何 选取 适 
当 的 宽度 是 一 项 很 细致 的 工作 。 

( 3 ) 从 理论 上 讲 ， 关 于 核 五 的 要 求 尚 可 适当 放宽 。 即 不 一 
定 要 求 玉 为 密度 ， 其 至 也 不 必要 求 它 为 非 俯 。 但 从 实用 上 看 ,要 
求 及 为 概率 密度 函数 其 合适 的 。 这 古 因 为 待 估 的 f 是 密度， 最 
好 是 估计 量 f， 本身 地 是 密度 应 数 . 当 扩 为 密度 时 ,容易 验证 六 满 
中 这 个 条 件 . 而 且 当 外 满足 某 些 光滑 条 件 时 ，f， 作为 x 的 函数 ， 
同样 继承 这 些 光滑 性 质 , 从 而 可 以 弥补 Rosenblatt 估计 的 不 足 ， 
选择 核 太 是 否 适 当 、 同 样 要 影响 信 计 的 精度 。 原则 上 ， 我 们 可 
对 核 玫 施加 一 定 药 限制 ， 合 得 合计 量 与 待 估 函数 的 偏差 在 一 定 意 
义 于 尽 可 能 地 小 。 例 如 可 以 要 求 所 有 对 称 性 ， 其 一 阶 算 《关于 窗 
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叙 六 ) 为 堆 ， 具 有 有 界 性 、 连 续 性 等 等 。 

往 后 将 会 看 到 核 知 计 有 种 种 优良 性 质 ， 且 恒 于 观 认 分析。 的 
而 在 文献 中 ， 核 估计 已 成 为 密度 估计 的 主要 方法 。 

4。 最 近邻 估计 

在 文献 中 ， 除 核 信 计 乱 ， 最 近邻 和信 计 方 法 也 是 常用 的 一 种 密 
旋 佑 计 方 法 。 这 是 Loftsgarden 和 Quesenberry 在 1965 年 提出 
芍 。 此 法 较 适 合 于 密度 的 局 部 估计 ，。 其 要 由 如 下 设 下 …”， 
兴 ， 是 来 自 未 知 密度 f 的 样本 。 先 选 定 一 个 同 n 有 关 的 整数 = 
有 ， 合 于 1< 委 8&<2， 对 固定 的 xER'， 记 a, (x ) 为 最 小 的 正 数 
4 使 得 [% 一 8，x 十 4Jj 中 至 少 包 合 下，…，Xw 中 的 六 个 。 注 意 
到 ， 对 每 一 &>0 可 以 期 望 在 六 ,，…。 六 ,中 大 约 有 2aNf (Xx) 
个 观察 值 落 入 区 间 [x 一 4，x 十 8] 之 中 ,因而 什 f(x) 的 售 计 《 记 为 
fn《X) ) 自然 地 可 以 通过 令 有 =20n《( 和) hn 了 n(x) 得 到 于是 
定 处 

falCx) 一 如/2C (2 ) 天 《6.6) 

为 /Cx ) 的 估计 。 文 献上 称 产 。 为 了 的 最 近邻 估计 ( 简 记 为 
NS, 佑 计 ) 。 注 意 到 与 Rosenblatt 估计 相反 ， 此 处 区 间 长 度 
2as《 + 》 是 随机 和 的 ， 而 区 间 内 记 含 观察 数 是 固定 的 。 下面 的 引 理 
说 明 ， 从 整体 上 看 ，N. N。 信 计 的 性 质 与 核 估计 有 很 大 的 不 同 。 

引 理 6-1 (1) 对 固定 4 及 半 ，…，X,, 了。(%) 作 为 变 
元 x 的 函数 是 处 处 连续 的 。 

(C2) | 六 (xyax=>. 

证 《1 ) 任 取 xXER!，x’ER!， 不 失 一 般 性 可 设 *% <x4， 风 
由 4,《 - ) 的 定义 易 知 

Qn XA ) EA CK + CAA 》 一 GCCY>》 TIX— 7% | 

CX Aa CX)— CX—r ) =a Cx — [x—x | 
反而 


[a C2 ) ~a, CX) |ix'—xl, 《6.7》 
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自得 江 第 一 个 结 i : : 

(2) 记 Wn 为 及 ，…， 太 ,的 次 序 统计 
基 。 当 XX) 了 轩 ，iCrkY ) 一式 局 一 XxX 当 Y>Xon 时 ， 
Cnf(X) 一 一 人 co 因 曾 


| (Xx) dx 六 + [tx>Xe]] «x) dx 


Kl1) 
Ee 2n 六 a 


= 
| ) 23H【( 邯 一 人 cn-k+1))》 人 
引 悍 证 毕 。 


由 吉 理 6.1 可 知 ， 广 〈x) 作 为 变 元 x 的 函数 非 概率 密度 。 男 
外 ， 从 证 明 过 程 可 看 出 ; 
训 (x) =O( 方 ) 当 lxl>o. 
注意 到 这 一 性 质 与 待 估 f 的 尾部 特征 元 关 , 因而 对 相当 一 类 待 估 
密度 ， 估 计 廊 (x) 的 尾部 喜 减 得 太 慢 。 从 而 广 不 适宜 用 作 /的 
整体 估计 。 下 面 的 引 理 给 出 了 疡 (yx ) 的 分 布 。 大 体 上 说 来 ， 
Rosenblatt 估计 与 N.N。. 个 计 的 关系 犹如 二 项 分 布 与 负 二 项 分 


布 的 关系 ， 因 而 N.N. 估计 的 性 质 显得 复杂 些 
引 理 6.:2 对 固定 XER:， mn 之 l， 有 


Po Cx) Ey) DON DY) (6.8》 
=n (一 | (C1—t) "dt, 
?0， 《6.9», 


其 中 
P(y) 1 fC) dP(r-y<KEr+y), 《6.10》 
Py 


证 明 留 作 练 习 ， 
由 (6.9) 式 ， 弛 得 a,(%*》 有 概率 密度 
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gt)y) 
0 PO LA ORTII FX >0 


0 » SO 
《6.11) 
如 果 令 
K(x) -全 viel ( 6.12) 
0 ， |x|[ 守 1 
则 可 将 《6:6 ) 改写 为 
x 一 站 
Cr) 0 (0 ) C6.13) 


因而 对 国定 的 Xx，N.N。 估计 可 看 成 以 (6.12 ) 为 核 具 窗 宽 
4n《 x ) 的 核 信 计 。 也 就 是 说 ， 在 单个 点 X* 上 的 N.N. 售 计 与 核 
估计 差 之 不 大 ， 只 有 当 同 时 考 虚 在 几 个 点 或 者 估计 整个 了 时， 
这 两 种 方法 才 显 示 出 差别 . 注意 到 Ce(“，) 在 每 一 形 如 


CX» t ur) (1<i<n—k) 的 点 上 其 导数 有 有 闻 断 ， 因 而 有 


局 部 干扰 。 而 对 核 估 计 来 说 ， 只 要 有 适当 光滑 的 核 ， 就 可 得 到 有 
相同 光滑 程度 的 核 入 计 。 丛 这 里 并 不 企图 对 这 两 种 方法 作 人 全面 的 
比较， 因为 这 只 有 在 进行 深入 的 理论 分 析 之 后 才能 作出 。N.N. 
估计 由 于 计算 上 有 某 种 方便 之 处 ， 这 种 方法 被 广泛 地 用 于 模式 识 
列 及 非 参数 判别 分 析 。 在 文献 中 ， 也 有 将 N.N， 估计 与 核 估 计 
#6 结合 起 来 成 为 《6:13 ) 的 一 种 推广 形式 ， 即 《6*13 》 中 的 五 为 任 
一 - 核 函数 ， 而 不 必 有 (6.12 ) 的 形式 。 这 种 推广 的 好 处 在 于 可 通 
过 适当 选择 核 而 政 进 佑 计量 在 尾部 的 性 能 ， 

二 、 估 计 精 度 的 度量 

我 们 用 TC xX ) 会 Tn ( x; XX …, 久 ，) 列 示 基于 样本 五 

:， 环 s， 未 知 密度 上 (xz ) 的 任 一 估计 . 由 于 ZT,《 * ) 既 同 样本 有 

关 ， 又 是 考察 点 的 函数 。 因 而 对 夯 定 的 考察 点 x， 佑 计 精 度 的 一 
种 自然 测度 为 
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MSECT, CX )=E/d{T, (XxX) — f(r)}, (6:147》 
称 (6'14) 为 个 计 了 的 殉 方 误差 ， 其 中 Ey 表示 期 望 是 在 真 分 
布 为 了 时 计算 。 而 当真 分 布 较 明 兢 时 ， 也 简 记 Bj 为 五。 我 位 
铬 知 有 

MSECT CX) )={E(T,. C(x) ) 

— f(x:+ Yar C TX)). (C6.15) 

上 式 右 端 是 由 两 个 部 分 组 成 ， 第 一 项 是 售 差 项 ， 而 第 二 项 是 估计 
的 方差 。 我 们 自然 希望 这 两 部 分 越 小 顽 好 。 但 是 要 园 时 减少 这 画 
部 分 是 国难 的 。 通 常 ， 如 降低 和 偏差， 则 方差 有 增 大 的 趋向 ， 反 之 
亦 然 。 直 观 上 看 ， 偏 次 项 表明 估计 量 对 了 的 光滑 修正 的 程度 。 
一 个 估计 量 的 光滑 程度 厂 高 ， 可 能 更 多 地 忽略 了 的 某 些 细节 ， 
从 而 增 大 随机 误差 。 对 于 TC ) 为 核 估 计时 ， 有 


ET, C4) =| Ky) fr-hy) dy 《6.16》 


Varit7, CX) ] = 一 一 | yY Flr-—hy) dy 


一 二 {ECF) Fx-hy) dy). (C6:17) 


因而 一 个 核 估计 的 光滑 程度 只 与 光滑 参数 如 有 关 ( 当 核 下 已 确定 
时 )。， 而 与 2 元 直接 关系 .为 了 降低 其 均 方 误 差 ， 必 须 调整 光滑 
人 参数。 

对 于 密度 估计 来 说 ， 更 有 实际 意义 的 精度 的 度量 应 是 整体 性 
的 测度 。 首 先 由 Rosenblatt ( 1956 年 ) 提出 而 后 被 广泛 使 用 的 一 
个 整体 测度 是 积分 均 方 误差 < MISE )， 


MISECT, ) = 可 | (TC x) -f(x) ydx } (6-18) 
易 知 
MISECT.) =|E ToCz) -f(x) ] dz 《6.19) 
-| MSEZT, (Cx ) Jdx 
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-|[ET,¢ XI—/f(Cx) dx 


+ [Vart T(x) ) dx， (6.20 ) 

柄 而 
MISE= 积 分 偏差 平方 和 + 积分 方 莽 。 

出 公式 《6.20 ) ， 我 们 在 前 女 对 均 方 误差 的 分 析 ， 同 样 可 施用 于 

积分 均 方 误差 。 对 于 核 估计 来 说 ， 应 该 选择 h 使 得 相应 的 核 居 

计 其 MISE 达到 最 小 。 文 献上 称 这 种 妃 为 核 刁 计 的 最 佳 窗 宽 ， 

在 实际 问题 中 ， 如 何 选择 最 佳 宿 宽 是 个 难以 处 理 的 问题 。 下 面 举 

一 个 例子 ， 设 及 为 标准 彗 态 密度 ， 而 为 入 (hk，0* ) 密度 。 由 

《6.16》、(6.17 ) 及 (6.20 ) 易 得 

五 [Ya )1=N CE，c 二 了 2 ) 密度 


(2 元 ) MISECT,) 一 二 [一 Co + he ) -272 


ee 
ol+ (oth) 2 


—2V 2 (20+h ) # ~ (6'21) 

再 对 (6.21 ) 关于 及 求 极 小 ， 即 得 最 佳 窗 宽 . Deheuvels 曾 给 出 
.数值 计算 的 结果 ， 即 使 对 于 2 一 10 这 样 的 小 样本， 在 最 侍 窗 宽 下 
算得 的 MISE 非常 小 。 

为 便于 计算 及 理论 分 析 ， 下 面 我 们 分 别 学 出 估计 偏差 及 方差 
芍 渐 近 表 夺 式 。 为 简单 计 ， 设 玉 是 对 称 密度 藤 数 ， 满 足 ， 

{iK« t ) dt—0, hIeK Ct) dt#0. ( 6.22) 
而 了 具有 二 阶 有 界 连 续 导 数 ，J 人 jp ->0， 当 #>co. 由 公式 
人 《6:16) ， 使 用 7(x-Ay > 车工 处 的 Taylor 展开 ， 有 

五 fy [7 (x)J—f(x) =|K Cu I LF CX Ji) 

— huf’(x)} ~f(X) Td 


到 "|K (Cu uf rx— Ohayaduy /2. 


其 中 19| 筷 1(98 与 +、K、X% 有 关 )。 由 对 f 的 假设 , 使 用 控制 收 


E/T Cx) —f (Cx) sf CX) hhtol hy, C0.23) 
用 同样 的 方法 ， 可 得 . 
Vatry ( T,X) ) f(x) [Kr Cwaut oni)-). 


/ (6.24) 
因此 当 /满足 上 述 条 件 ， 县 /EL,(R!) 时 ， 有 如 下 渐 近 公 
式 ， 

[E/T #) -Am ] sz 于 A [Cf (Td, (625 ) 


Jvarit Tx) Idx (Cn) |K: Cu) du. {6.26) 


从 公式 《6.25》、(6.26 ) 可 见 ， 如 玉 选 得 很 小 ， 同 然 可 降低 偏 
差 ， 但 方差 项 随 之 增 大 ; 反之 亦 然 。 今 合并 (6.25)、( 6:26 )， 
得 到 MISE ee 


MISE= 款 hk2 [cmezy3err om |? Cu ddu. 
(6:27> 
OO ee 
hopt — Ra’s [fg zt) du | | [| 1/5 -1 


(628 ) 
公式 (6.28 ) 表明 ， 最 佳 浙 近 窗 宽 随 增 大 以 和 的 速度 趋 于 


零 .其 次 ， 积 分 |[ 7" (xD]*dz 直观 上 可 看 成 是 /的 所 动 频率 的 


一 种 度 蝶 。 因 击 对 于 摆动 频次 大 的 上 其 育 佳 的 闫 应 该 随 之 变 
小 。 亿 是， 由 于 公式 《 6.28 ) 含有 未 知 的 密度 所 ， 济 不 能 付 诸 应 
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困 . 一 种 痊 代 办 法 是 估计 积分 [5/” 《x) ] “dx,， 亚 将 佑 计量 代 
-六 公式 《6:28 ) .这样 得 到 的 窗 宽 已 是 样本 的 国 数 。 另 外 一 种 方 
其 就 是 直接 由 样本 “ 白 动 ”选择 窗 宽 ， 文 献上 称 之 为 “ 自 适 型 2 
核 估 计 。 但 不 论 使 用 哪 一 种 方法 ， 得 到 的 窗 宽 已 失去 “最 佳 窗 
宽 2 的 原意 了 。 

如 将 由 《 6:28 ) 确定 的 如 re 代入 《6.27 ) ， 则 有 


MISE~S COE Cf x) de HS 《6.29) 
其 中 
CeOKY = hs 全 Kt ay 《6-30 ) 


-次 后 可 依 使 CCK ) 尽 可 能 小 的 原则 ( 当然 要 满足 (6.22)) 选 择 
下 。 这 样 可 以 得 到 尽 可 能 小 的 积分 均 方 误差 。 至 于 满足 这 种 要 求 
的 核 的 选择 问题 ， 文 献上 已 有 一 些 讨 论 ， 还 有 待 于 进一步 发 展 . 
“从 公式 (6.29 ) 至 少 可 看 出 这 样 一 个 事实 ， 不 论 有 及 下 如 何 选 
取 ， 作 为 核 估 计 来 说 ， 其 积分 均 方 误差 收 伍 于 零 的 速度 ， 其 主要 
部 分 的 阶 不 能 超过 4/5 。 这 在 理论 分 析 上 是 很 有 意义 的 。 

三 、 密 度 估计 的 应 用 

密度 们 计 是 具有 广泛 应 用 领域 的 一 种 非 参 数 统 计 方法 - 
Silyerman 曾 指 出 ， 密 度 估 计 在 数据 的 统计 处 理 的 所 有 阶段 都 是 
有 用 的 。 其 应 用 领域 涉及 社会 科学 、 物 理科 学 、 生 物 科学 以 及 台 
种 工程 技术 领域 。 这 里 应 指出 的 是 ， 密 度 估计 的 重要 性 ， 并 不 在 
“于 它 的 单独 使 用 ， 而 是 作为 统计 鹤 断 的 中 间 环 节 发 挥 作用 ， 下 面 
人 一 简单 介绍 。 


， 非 参数 兰 别 
贞 员 分 新 的 基本 问题 可 条 站 于 为， 役 有 来 自 怠 林 4 的 
样本 全,，…，X。， 及 来 自 总 体 B 的 样本 了,，…，Ym. 今 有 新 


的 观察 Z， 同 ZZ 来 自 人 44 还 是 五 ? 现 设 总 体 4 有 密度 f4，B 有 
“ 痢 度 fs. 基于 极 大 : 包 然 原理 可 定 出 如 下 的 判别 规则 ， 好 果 
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fa(2Z) fo Z) 

则 判 Z 属于 总 体 4 ， 反 之 虽 判 为 BB 但 在 实际 问题 中 ，f4 及 
fs 往往 是 未 知 的 ， 这 样 的 判别 现 则 无 实用 价 值 ，Fix 和 Hodges 
《 1951 ) 提出 了 了 -- 逢 在 参数 方法 ， 即 ， 分 别 感 于 天 1，…， 于 下 
区 ，…， 了 Yn 估计 f4 及 _ 闫 ， 记 估计 为 六 及 久 . 然后 视 广 (Z) 
污 从 (2Z ) 抽 或 及 (2Z ) 过 名 (2 ) 确定 ZZ 所 归属 的 类 , 这 是 一 
种 最 简单 的 非 参 数 判 别 方法 。 当 然 还 有 别 的 非 参 数 判 别 规则 ， 而 
且 非 参数 判别 并 非 必须 合用 密度 估计 ,这 在 后 文 (86.4 ) 中 将 要 - 
详细 介绍 。 

2. 谷类 分 析 

设 有 4 个 来 自 末 知 密度 太 的 观察 六,，…, XX,， 要 求 依 某 种 : 
规则 将 兰 ,，…、 了 ;分 成 若干 类 、 与 浏 别 分 析 不 同 的 是 ， 关 于 类 - 
及 类 的 数目 不 是 事先 给 定 的 ， 而 是 要 出 让 组 观察 来 确定 ,在 考古 
学 中 就 有 这 样 的 河 题 .- 一 种 常用 的 聚 关 方 法 即 是 沟 造 某 秘 * 树 图 "。 
各 个 个 体 ( 即 无 , ) 按 “ 侍 图 ”中 的 等 级 归并 成 著 干 类 ， 而 划分 等 
级 的 规则 需 使 用 密度 个 计 . 

3. 随机 数 药 模拟 

设 已 有 观察 X:，…，X,， 由 于 随机 影响 ， 这 些 观察 渗 杂 了 
某 些 伪造 的 细节 。 我 们 的 日 的 是 模拟 -一 组 新 数据 也， 了 ，…， 
使 得 ,，Y.，… 具有 源 总 体 的 结构 ， 但 雹 这些 伪造 的 细 间 。 省: 
总 体 具 未 知 密度 f 时， 可 用 其 核 估计 产生 宰 拟 数 ， 调 如 了 是 秆 
于 汽 人 3 "sy 到 的 其 核 天 及 窗 宽 hn 的 密度 估计 ， 订 按 以 下 步 屿 
产生 新 数据 了 了， 

C1) 从 数字 1，2，"…, 7 中 有 放 回 地 随机 抽取 一 个 ， 记 : 
为 六 

(2) 产生 一 个 与 下 ,…, 革 ,独立 的 具 窜 度 玉 的 随机 变量 63 

《 3) 定义 

Y=X,+hs, 

以 上 过 程 可 不 断 中 重复 进行 ， 从 而 产生 一 串 新 数据 。 易 知 这 样 的 
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了 有 分 布 窗 度 了 
其 它 的 应 用 ， 例 如 多 峰 狂 检验 ， 各 秋 密 度 泛 函 估计 等 等 ， 在 
此 不 一 一 列举 。 


86.2 禾 尽 估计 的 大 样本 性 质 


在 上 一 节 中 ， 我 们 讨论 了 估计 概率 密度 的 几 种 常用 方法 ， 并 
指出 了 其 若干 初步 的 小 样本 性 质 。 由 于 对 未 知 密度 的 数学 形式 没 
有 任何 假定 ， 指 望 得 出 较为 深入 的 小 样本 性 质 是 不 现实 的 ,例如 ， 
这 些 佑 计 都 没有 无 偏 性 ， 也 不 知道 它们 是 否 在 任何 有 意义 的 小 样 
本 优良 性 准则 之 下 具有 最 优 性 。 

由 于 这 个 原因 ， 记 今 为 止 关于 密度 估计 的 研究 ， 几 乎 全 集中 
在 大 样本 方面 。 一 般 来 说 这 本 是 非 参数 方法 的 一 个 特征 。 

一 、 有 关 概 念 

为 下 文 的 讨论 方便 起 匈 ， 先 回顾 并 叙述 若干 有 关 福 念 。 以 下 
总 假定 X,，…， 三 。 是 来 自 未 知 密度 / 的 独立 同 分 布 样本 ， 
了 ,(%) 二 了 (X93 汪 ,，…, 注 ,) 是 基于 该 样本 的 CX) 节 二 一- 
估计 。 首 先 ， 类 似 于 参数 估计 中 的 渐 近 无 偏 性 ， 我 们 有 

定义 6.2 ”如 果 对 每 一 给 定 x 

lim Et (T(z)) 一 F(Cxz)， 对 所 有 可 能 的 了 了 (6.31 )》 
则 称 7 为 浙 近 无 偏 估计 ，。 

在 文献 中 ,已 经 证 明了 : 在 相当 宽泛 的 条 件 下 ， 对 固定 n, 密 
度 函 数 的 无 偏 估 计 是 不 存在 的 ,直观 上 看 ， 只 要 国定 2， 由 样本 
和 大,，…， 瑟 。 所 提供 的 关于 大 的 信息 总 是 有 限 的 ， 即 使 估计 方法 
不 断 变更 也 于 事 无 补 。 但 当 关 无 限 增 大 时 ， 我 们 对 了 的 了 解 也 
就 逐渐 完整 。 正 如 往 后 的 讨论 亡 表 明 的 那样 ， 在 不 太 强 的 限制 
下 ， 渐 近 无 偏 估计 总 是 存在 的 。 

其 次 ， 在 参数 估计 中 的 相合 性 概念 也 可 几乎 是 平行 地 移 到 这 
里 。 
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定义 6.3 如 果 对 国定 X%， 有 
lim ELT, Cx%)—f (x)T=0 (C6.32) 
则 称 了 为 地 的 (在 xx 处 ) 均 方 相合 估计 。 简 记 为 
T, (x)FCX). 
显然 ， 为 正 T, CX) 守 f (x)， 只 须 证 ， 当 hw 时 ， 
ET,.(X)——>/f( XX) 及 VarsCT lx) ) -一 ?0。 
类 似 可 定义 对 国定 xX， (%) 依 概率 收 化 于 《XX)《 记 为 
Tx) >f (x) ) 及 以 概率 1 收 化 ( 记 为 了.(X) 一 > 了 (x)， 
a.s. ) .以 上 仅 就 国定 考察 点 +， 讨论 估计 量 T。( x) 向 f+》 
的 返 近 ， 文 献上 称 之 为 逐 点 相合 性 。 与 此 相关 的 概念 ， 则 是 一 臻 
相合 性 ， 规 分 出 给 出 如 下 的 定义 。 
定义 6.4 如 对 和 任 给 的 s>0 
lim PC sup|lT, (YY)》 一 /xz)1 >e) 一 0 《6.33 ) 


出 称 了, 是 f 的 一 致 相合 估计 ， 并 简 记 为 
supl7, (x) —f(X) | ”>0， 当 7 一 co。 
定义 6.5 如果 “0 
PllimsuplT, (x)— f(x)1=0) =1 (C6:34) 
则 称 Tv 为 了 的 -- 致 融 相 合 逢 计 ， 并 简 记 为 ， 
supl7, (CX) 一 大 (YY) 1 一 >0，a，S.， 当 HT>co， 

在 定义 6.4、6.5 中 ， 路 会 着 sap1T。( *) 一 f(x)| 作为 样本 
Xp 天 的 元 数 是 可 测 的 . 这 对 于 儿 种 常用 的 密谋 估计 都 是 满 
足 的 。 显然 对 一 致 相合 性 的 要 求 变 比 逐 点 相合 性 高 得 多 。 通 常 证 

ee 33) 或 《6.34 ) 是 分 两 步 进 行 的 .其 一 ,是 证 明 E 


lim supl ET, SA 《8.35) 
其 二 ， 是 断定 | We 和 
”0 时 sup[T, 0) 一 ET x) -一 一 >0 《6。 36) 
站 《或 a.S。) 
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这 第 一 部 分 无 随机 竹 可 言 ， 完 全 由 了 及 佑 计量 的 光滑 性 所 确定 ， 
因而 较 容 易 。 主 要 困难 在 第 二 部 分 , 在 某 些 情 部 下 ， 可 将 
Sup iT。《X) 一 EZ,(X)| 表 成 经 验 过 程 的 适当 泛 函 ， 然 后 使 用 经 
验 过 竹 的 有 关 性 质 得 以 证 明 。 

二 、 核 估计 的 大 样本 性 质 

本 段 总 用 (除非 另 有 说 明 ) 乓 表示 R 上 核 函数 ， 殊 为 窗 亮 ，、 
了 (《 xX ) 汶 具有 核 政 、 窗 宽 hh 的 基于 Xs “oy 六 的 核 入 计 ， 
其 定义 同 (6.5) 。 我 们 讨论 核 估计 的 最 基本 且 较 为 初等 的 若干 大 
样本 性 质 。 下 面 的 引 理 可 以 说 是 核 佑 计 的 一 个 基本 引 理 ， 最 先是 
由 Parzen ( 1962 ) 给 出 的 ， | 

引 理 6.3 设 扩 (，) 及 g(《*) 均 为 Ri 上 的 Borel 可 测 函 
数 ， 满 足下 述 条 件 ， 

《1) 太 有 界 ， 

(2 ) | 天 1 ) jdxzr< os 


(3 ) limuk ( 2z ) 一 0 或 g 有 界 ， 


{4 ) |g 2 ) Idu<o, 
常数 序列 {有} 满足 lim 名 一 0. 令 


gu Ct) |K(EYg Cr-u) du, ， (6-37) 


则 
limg, C(x) =g Cx) |K(w)du, 任意 xEc(g). (6+38》 


其 中 CCg ) 为 9 的 连续 点 集 。 
叉车 9 有 界 且 一 致 连续 ， 则 (6.38 ) 关于 一 狐 成 立 
证 先 设 lim ukK (Cw) =0. 取 定 6>0。 有 


| gi Cx) —g Cx) |K Cu) dul 
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=||cex- zx 7 -9gCx) ii- se du | 
< sup lg (x—2)—y(X) ee ladw 


+ SUP 
站 |e 


EK(E)| gC) Iau 


+ Ig (x)| | (EE) dn 
会 7 十 /十 7 《6.39》 
0 对 任 给 e>0， 可 造 8>0 充分 小 使 得 Jurce, 然 
后 固定 此 3. 1 Dim ho 二 0 可 知 lm fn .二 0, 又 
1 /2 
| 天 天 (下 | en [iit IKECu) [dzx。 
由 条 件 (2) 即 得 lim J us=0. 尘 而 
im sup lg C(x) —g (x) | Ku) du 1<e， 


由 52>0 的 任意 人 性 即 得 证 《6.38 ) . 
若 9g 有 界 ， 记 MM 一 supig 《wx)1. 则 7 73 代 之 以 


2 41| | 去 天 (Ei du= 2M | am [IK Ca) lau, 
仍 由 条 件 《2 ) 得 到 《6'38 〉》、 至 于 第 二 个 结论 ， 只 更 注意 到 ， 
由 9 一 臻 连续， 对 任 给 sa>>0。 可 找到 3>0 使 (6.39 ) 右 端 第 一 
项 关于 xX 一 致 地 小 于 8， 其 余 相 间 ， 引 理 证 举 。 

下 面 讨论 核 估计 的 逐 点 相合 性 。 

定理 6.1 设 核 扩 是 R 上 的 福 率 密度 ， 且 满足 引 理 6.3 之 条 
件 (1)，、(2)。 芳 limh, =0, 则 大 


lm Ef, (tx)Y=/ (x), xEc(f) 《6.40 ) 


又 车 一致 佣 续 ， 册 (6.40 ) 关于 % 一 致 成 立 ， 
证 第 一 个 结论 是 引 理 6.3 的 直接 结果 又 若 了 上 一致 连 续 ， 
刀子 有 界 。 因 而 第 二 个 结论 立即 可 得 ， 定 理 证 毕 。 


定理 6.2 设 被 及 满足 定理 6.1 的 条 件 ， 和 县 


limbh, =0, limnh,= 2 《6.41 》 
出 
yz)rrx)， TECCF)., (6.42) 
证 辐 定 XEcCC 了 》， 由 沦 嵌 6-1 内 须 证 
Varsin (YX) — 30、 当 和 > 20. (6.13) 


记 及 (a) 二 K? (nu). 易 知 ， 当 玉 满 足 引 理 6.3 的 条 件 ， 则 
玉 " 亦 然 。 基 而 由 引 丙 6.3 知 


lim 也 |g* (A&E) fx—u) du—f(r) |K*rmau, 


( 6.44) 
理由 
Vars{ fA(X)) SE 5 EK" (5 
了 1 * FH | 
he x (HE) fF Cx) du 


及 lim nh 二 2o， 即 得 (6.43 》。 定 理 证 毕 。 


条 件 (6.41 ) 的 含义 是 ， 当 ?> co 时 加 >0， 但 其 速度 不 能 
太 快 .这 与 前 一 节 的 直观 分 析 得 到 的 结论 是 一 致 的 ， 下 医 讨 论 一 
致 相合 性. 
定理 6.3 设 了 一 致 连续 ， 玉 为 概 说 密 度 ， 且 
《1 下 (2577 桨 可 各 的 等 征 通 数 有 RCzE7， 
(C2) HmRm -0，1linm21=co。 
则 
sup| fn x)—7Cx)| 六 当 4 一 co。 (6:45} 
证 由 条 件 (1) 及 反 演 公式 
|e pc yat 
知 五 《2# )》 有 界 ， 因 而 满足 引 理 6.3 的 条 从。 由 定理 6'1 可 得 
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lim Sun|Ef,CX)—f(x) |=0, 
记 94(w) 一 证 加 er 一 JewidF, C(t) 其 中 到 ,起 XX 
…， 具 nx 的 经 难 分 布 需 数 。 喇 有 


I 
fr) 一 下 KS) dF 


1 
9x, 


1} 


i oii ) kdvdF, (Ct) 


一 ee (hv) dvadF,.lt) 
2x 


1 
2 


je 人 《 下 > kt jv 了》 dv, 


于 是 
sup [fCX)—Ef.(x)!| 


1 yl mr) -Epry 
< JiaCh, )1 12.(2) Ep,rv)ldy 


Etsup| fu(*) -Ef (x) 1 } 


< [lhhw IVE Cr) -Ev Cv I dy 
1 —L/:2 

< | la Ch ) lav 

We 1 Vu 

一 了 元 (a) jc») ldv0， 当 h 一 20， 


Np (eupl fk x%)—f C(x) EE {suplfn(x)— Ef x)} 
tsup| Efn(x)—f Cx)|, 
即 得 
Ei{sup| /,(*) -A(X)I}—0, 3 1 一 co。 
由 此 即 推出 (6.45 ) ， 生 型 证 毕 。 
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为 了 讨论 疾 相 合 性 ， 需 要 一 个 关于 经 验 分 布 的 概率 不 等 式 ， 

狂 于 该 不 等 式 的 证 明 较 为 复杂 ， 此 处 上 只 叙述 其 结果 而 略 去 证 明 。 

引 理 6.4 设 泽 ;,，…， 愉 ,是 来 自 连 续 分 布 函数 天 (好 的 独立 

合 分 布 样本 ,FF,《* ) 是 其 经 验 分 布 冰 数 。 风 在 站 绝 对 常数 C>>0 
及 0<a<<2 使 得 ， 对 任 给 5>0 

| Pe supl F(x) — P(X) en ) cexp(-ae’). (6.46 ) 


定理 6.4 ， 设 玉 是 有 界 变 差 的 概率 密度 ， 上 了 一致 连 续 ， 若 


Jim hh,=0, limnh?/ (log, ) 一 co， (6.47 ) 
则 ， 

lim sup| fa Cx) 一 AKCxz) |=0, a.s. (6.48 ) 

证 由 定理 6+1 只 须 证 ; 当 关 一 co 时 

VAsupl fsx) Eft)|—>0, a.8. 《6.49 ) 
柑 下 有 入 变 差 ， 鸽 用 分 部 积分 可 知 

i 1 dFa ly) 

bs ( 和 光一 了 
让 ) dF | z 
= sup 及 ne 了 (- < 二 了 | 


人 
给 的 >0， 
PCsaplj (x) 一 二 六 (7)|>8) 
PK supl, (Cx) Fx) |> ohV Ch) 到 
CexXp{ -neh C K) }。 
由 条 件 ( 6 47) 即 知 
5 cexp{- -aneih2V (EK) -<A%, 
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售 Borel-Canielli 引 理 印 知 六 ,>0，as， 当 7->co, 定型 证 毕 。 
三 、N.N. 估计 的 大 样本 性 质 . 

本 跋 采 广 (x ) 表示 由 (6.6 ) 所 定义 的 N,N. 个 计 。 
定 球 6.5 设 有 =, 满嘴 


ka>o0, ki/Nn>0, GH>%0, 


则 当 HH>20|， 


《6'50 > 


ns Het (6.51》 


证 国定 xEc( ff 对 任 给 se>0 有 
~ . - k 和 
PUfatx)— fr)l>e)=P P (ant#)<- A rs 


Ek 
(1)> 2n(f(X) 一 8 ) 上 
(652 > 


《车 (XX) 所， 第 二 项 不 出 五 )， 记 
D+ 
六 | Zn flo)—e) f(tyat, 


TT 
y》。 为 二 项 分 布 Bn， ps) 变量 。 因 : 因 YECc(K 三 )， E>0, 易 见 
存在 1>>c>0 使 得 当 分 大 时 有 
k 


D2 C (f(xX)+ 5) 过 和 条 


依 (x) 的 定义 可 得 
P (a x) < =P(Y,>Ek) 
rn 


<np C1—p, 》 ACT 一 C )》 kk 
SC/L (1—c) RI>0, HH>o0. 


用 同 幸 -的 方法 可 证 ， 
四 ( A ey ay) 


—>0， 当 h 闻 20。 
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由 《6-52 ) 即 竺 证 (6.51 》。 定 再 证 毕 。 
上 述 定理 的 证 胃 使 用 站 比 雪夫 不 等 式 ， 如 改 用 Hoeffding: 
《1963 ) 的 一 个 较 强 的 不 等 式 ， 则 可 得 到 如 下 结果 ， 
定理 6-6 设 名 满足 
ka>20, Ek/ 30, Rf/logs 一 co (C653): 
则 有 
FXIIFFO), asxECCf), BNF, (6.54 
下 而 给 出 一 个 一 致 强 相合 的 结果 ， 
定理 6.7 设 会 满足 


> ER /n>0, Re /fv Hlog 一 co。 ~、6*55 > 
lim sup|lf, C(x) —/(x)|=0, 3a.S。 《6:56 入 


证 对 任 给 es 
Plsuplfn, Cx) —/ (x)|>e) 


= PU{a (tx) <E/2nC F(X +e)}) 
+POU{a (x) >R/2n CF CXY 一) A + 
由 的 一 至 过 续 性 ，， 存 在 82>0 合 得当]3 一 +| <5 时 ， 就 有 


- ey 
if(y) Ce | ee 


| 是 长 话 为 dlx ) = ”的 区 间 。 显 


人 
然 当 4 充分 大 时 ,4d (x) < 下-<5. 记 下。、F 所 诱导 的 测度 : 
分 别 为 上 及 严 ， 峙 当 关 充分 大 时 

ACT 一 fF Ot) dt 

因而 当 反 充分 大 时 

{ a) < 


nk a ey Cf (xX) +e/2).- 


『 吕 
二 二 SAL,) > 上 


sa 269 0 


CS {ul -iL ) > 


he 
2n( f(x)+e) | 


ks 
一 (7 ) 一 由 CT 了 7 )| 这 ES 上 


其 中 M-sup 了 (x). 记 Co 一 5/ 4《 及 +s )， 则 当即 充分 大 时 
Ju<P (YU {lt ) rd 1 1220}) 


<P fi IFCx)—F( %)| 之 co 名 ) 
由 引 理 6.4， 存 在 绝对 常数 c>>0，c1>>0 使 得 当 半 充分 大 时 


fn: <Ccexp C -Cik:/n). 
由 条 件 (6.55 ) 即 知 Bn<~. 同型 可 证 J 之 2o, 因而 由 


Borel-Cantelli 31 理 即 知 (6568) 成立， 定理 证 毕 。 : 

至 于 N.N., 估计 的 均 方 相合 性 ,其 证 明 比 较 复 杂 。 有 兴趣 的 
读者 可 参看 有 关 文 献 。 另 一 个 有 关 问 题 ， 即 从 大 样本 角度 出 较 
N.N. 估计 与 Rosenblatt 估计 的 优 劣 。 由 于 这 一 问题 过 于 专门 ， 
在 此 略 去 。 

四 、 高 维 情形 

到 此 为 止 ， 我 们 讨论 的 密度 估计 都 是 基于 -- 维 数据 。 这 是 由 
于 从 理论 分 析 角 度 ， 一 维 情形 简单 明 赚 ， 且 不 少 的 大 样本 结果 在 
高 维 都 有 类 似 的 推广 。 然 而 ， 密 度 估计 的 不 少 重要 应 用 领域 ， 涉 
及 的 是 高 维 数据 。 无 论 从 应 用 还 是 理论 分 析 ， 高 维 情形 都 有 其 特 
- 味 性 。 本 段 仅 就 高 a aed a 

下 面 均 设 发 ,，: 是 来 自 林 知 4 维 密度 了 (x) 的 独立 同 
-分布 祥 本 . 

1. 光滑 参数 的 设计 

我 们 可 将 一 元 核 估计 的 定义 推广 为 ， 


fn( #4) = -SK (2) 三 《6.57 》 


27D 。 


其 中 天 (，) 是 Ra 中 的 密度 函数 ， 例 如 a 维 标 准 正 态 密度 ， 
丸 >04 是 窗 宽 。 这 是 通常 使 用 的 高 维 人 核 估计 的 定义 。 在 这 一 定 义 
中 ， 对 数据 的 每 一 分 量 上 用 问 一 刻度 因子 如 加 以 光滑 。 当 数据 点 . 
在 某 一 方向 上 的 变异 比 其 它 方向 要 显著 地 大 时 ， 这 一 定义 明显 此 
不 合适 。 在 这 种 情况 下， 不 如 使 用 一 个 常 向 量 或 常数 矩阵 作为 光 . 
滑 参数 来 得 好 。 另 一 种 方法 是 先 将 数据 作 刻 度 变 摸 ， 以 降低 数 亿 
点 的 各 向 变异 ， 再 对 经 处 理 的 数据 使 用 定 义 ( 6-57). Fukunaga 
( 1972 ) 六 提出 如 下 的 变换 方法 ， 记 SS 为 半 ，…， 关 ,的 样本 协 . 
差 阵 ， 作 变 摸 龙 , 二 S$-12 革 ,2 二 1，2，…，X1。 然 后 使 用 一 个 径 
向 对 称 核 必 加 以 光滑 ， 最 后 变 回 原 数据 。 如 此 得 到 的 估计 可 以 表 ， 
志 


2 4 
fx) X'S ( #—X)], 


(6:58 ): 
其 中 

kCxx)=K(X)}. 
这 样 作 的 好 处 是 ， 变 狗 后 的 数据 羡 ,，…， 必 其 样本 协 差 阵 是 单 。 
位 阵 ， 因 而 消除 了 数据 的 各 向 变异 的 差别 .但 公式 (6158 ) 的 计 : 
算 景 较 大 。 文献 中 其 它 的 计 论 还 很 多 ， 这 里 不 一 一 列举 。 

2. 尾部 估计 

一 般 说 来 ,在 低 维 情形 f 的 昆 部 估计 失当 影响 不 大 。 这 是 内 潍 : 
在 忆 部 区 域 中 的 数据 很 少 。 故 而 绝 大 部 分 样本 可 看 成 来 自 裁 尼 分 - 
布 。 然而 当 维 数 4 增 大 时 ， 人 情况 就 有 明显 的 差别 。 例如 4 二 10， 
为 标准 正 态 密度 。 则 平均 来 说 ， 大 约 有 过 半 的 数据 落 在 区 域 

DA{xX:f CCX)ZE0.01) Xf (0)} 

之 中 。 事实 上 , 如 记 /CY1)/f(o) 的 中 位 数 为 Mm， 则 由 : 


fF (KX1) /fC0) 一 exp {Xx}~ exp (一 去 驮 。) ， 上 其中: 


X23 为 自由 度 为 10 的 妇 分布 。 面 好 ,的 中 位 数 为 9.34， 可 得 : 
m=exp( -9.34/2 ) 一 0.0094<0.01。 因 而 
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于 = 已 FOXV/F COO) Em) EPOX /F090.01). 


于 是 
EL"{i:X,ED, f=1, 2,。 ,7}] 


=nPtf(XY)/F C0) <0.01) > 也 。 


此 例 也 表明 :与 低 维 情形 相反 ， 低 密度 区 域 是 高 维 分 布 的 非常 蛋 
要 部 分 。 因 而 在 高 纵情 形 ， 对 了 的 尾部 估计 需要 十 分 小 心 ， 

3. 对 给 定 估 计 精 度 , 维 数 对 最 低 限 度 的 样本 容量 的 影响 ， 

我 们 以 均 方 误差 作为 精度 的 测度 ， 则 对 给 定 的 精度 及 假 谈 理 
论 分 布 ,原则 上 可 定 出 一 个 最 低 限 度 的 祥 本 容量 。 在 实际 问题 中 ” 
当然 希望 这 个 信 越 小 越 好 、 但 是 随 着 维 数 的 增 大 ， 最 低 样 本 容重 
的 增 大 是 非常 之 快 。 例 如 六 是 正 态 核 密度 估计 ， 了 是 标准 正 态 密 
度 。 考察 +=0 处 的 均 方 误差 。 如 要 求 

五 ( 廊 (0) 一 Fr0) :< (0.1》xr 太 (0)2， 

则 当 Q=2 时 ,n= 二 1934 二 3 时 ,nn 二 67; 而 当 Gd 一 10 时 ,n= 二 842000. 
如 此 之 太 的 样本 容量 ， 在 实际 问题 中 是 无 法 承受 的 。 因 而 根据 实 
际 沉 要 。 不 晰 改进 估计 方法 是 个 重要 课题 。 


$6°3 非 参 数 回 归 


一 、 引 喜 
设 在 一 实际 问题 中 ,我 们 感 兴趣 的 变量 及 与 六 ( 均 可 为 多 维 ) 
有 某 种 相关 关系 。 即 当 给 定 卫 二 x 时 ， 虽 然 还 不 足以 确定 YY 的 
值 ， 但 了 的 条 件 分 布 由 x 所 确定 ， 为 方便 计 ， 称 XX 为 自 变量 ，Y 
为 因 变 医 。 例 如 天 是 某 种 农作物 单位 面积 的 施肥 基 和 播种 量 ， 此 
时 下 为 二 维 肉 自 变 量 ， 而 了 了 为 该 作物 的 计 产 量 ，Y 了 的 值 当然 疝 六 
之 取 值 有 关 ， 但 还 未 达到 由 它 所 完全 确定 的 程度 ， 因 为 也 还 受到 
诸如 管 班 水 平 、 气 候 变 化 及 其 他 大 量 因素 的 影响 。 但 在 许多 实际 
+ 272。 


对 瑟 取 值 的 依赖 关系 ， 即 是 最 广 意义 下 的 回归 关系 。 在 经 典 回归 
分 析 中 ， 常 假定 (了 '，Y'》 有 多 元 正 态 分 布 N(H， 谊 )， 共 中 
ti Ai: A 
t= (0 ), 2 > 《6.59 ) 
#， 马 直达 式 中 的 分 块 相应 于 多 ， 了 的 维 数 。 在 此 假定 下 ， 当 给 
定 瑟 二 + 时 ， 了 的 条 件 分 布 仍 鸭 多 元 正 态 。 了 的 条 件 期 望 为 
m(x) 人 EECYIX=X)=E CY|X)=h,+A LAX—H). 
(6:60) 
函数 mC%) 常 称 为 CY 对 天 的 ) 回归 函数 ， 它 描述 了 Y 的 条 
件 萄 望 随 玉 值 变 化 的 情况 。 若 有 来 日 (六 ，Y) 的 随机 样本 z= 
1 《 XxX, Ys 《 和». Y.,)}, 网 可 基于 Ln 作出 《6.60 ) 中 未 
知人 参数 的 最 小 二 乘 估 计 ，. 惠 论 和 实践 孝 证 明了 了 在 上 述 正 态 回归 模 
型 下 ,最 小 二 乘 估 计 有 种 种 优良 性 质 。 然 而 在 很 多 实际 问题 中 , 正 
态 性 不 一 定 成 立 ， 这 时 我 们 要 另 找 办 法 去 合计 国 归 函数 ECY |x) 
及 共 他 有 意义 的 量 ， 如 笨 件 方差 Var CY |x) 等 。 有 时 可 通过 直 
接 估计 Y《 在 给 定 且 = 之 下 ) 的 条 件 分 布 来 法 到 这 一 目的 。 例 
如 ， 湾 虑 下 面 这 样 一 种 情况 ， 对 给 定 的 X， 在 六 ,，…， 关 ,中 有 
若干 个 (数目 较 大 ) X, 恰好 等 于 X. 车 如 ， 设 ,二 《+，j 二 1， 
2 k, 则 可 用 
Fa ylx) 全 天 TY < 
来 估计 给 定 眉 天 和 过时， 区 的 条 件 分 布 函数 五 《YX%)， 然 后， 用 
成 (x) 全 [ydPs( ylx) 一 二 当 Tu ， (6.61 ) 
作为 回归 函数 fxrCx) 的 估计 。 这 种 作法 只 是 在 很 特殊 的 情况 下 
才 可 行 ， 一 般 说 来 ， 对 给 定 的 多 9 可 能 在 人 Xs """y 大 中 大 很 少 
的 祥 本 《 甚至 一 个 也 没有 ) 恰好 等 于 * ， 工 述 作法 就 行 不 通 了 ， 
因而 ， 必 须 寻 技 一 种 普 近 适用 的 合计 条 件 分 布 的 方法 - 我 们 偿 下 
从 另 一 角度 考察 这 一 问题 .如 能 找到 一 种 方法 全 计 ECfAY)|*)， 
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其 中 了 为 任 一 实 函 数 ， 则 当 入 (了 了 ) =7r7YE4](4 是 某 个 区 
间 ) 时 ， 就 能 估计 条 件 概 率 ; 而 当 A(Y )=Y 了 或 1(Y)= 
[LY 一 E(Y|x)]J* 时 ， 即 得 条 件 均 值 及 条 件 方 益 的 值 计 。 于 是 诺 多 
条 件 量 的 佑 计 同 题 可 以 归结 成 估计 回归 函数 (Zix ) 的 问 题 ， 
其 中 Z 一 上 (了 )。 仍 用 了 代替 记号 Z， 我 们 可 以 将 问题 一 般 地 志 
述 为 : 设 有 因 变 重 了 了 《〈 为 一 维 ) 与 自 变 量 瑟 (G 维 ) 配 对 ，( 六 ， 
Y ) 的 分 布 未 知 ， 只 假定 EY | 过 0。 今 有 来 白 (六 ,了 ) 的 随 
机 样本 《 王 ,，7,， )，? 二 1，2，…， 久 ， 要 求 基于 该 样本 估计 回归 
函数 mm《x) = 二 CY|x)， 即 和 淘 造 全 计 1 (4X) 二 1 《(X; 从， 
Y,, 办 六, 上 使 得 对 每 一 个 XER’, 用 mn ( X) 作 mC(x) 
的 估计 。 

Stone 在 1977 年 提出 了 一 种 非 参数 回归 估计 的 权 函 数 方 法 ， 
并 在 替 论 上 论证 了 这 种 方法 的 优良 性 ( 主要 是 其 大 样本 性 质 ) 。 
Stone 的 方法 引起 了 广泛 的 重视 。 在 这 段 时 间 内 ， 这 一 方向 取得 
了 很 大 进展 。 本 节 若 重 介 绍 权 光 数 方 法 的 有 关 概 念 以 及 方法 的 应 
有 用， 而 对 有 关 理 论 结果 ， 只 作 必 要 的 简单 介绍 . 

二 、 权 范 数 法 

我 们 从 上 面 提 到 的 特殊 情形 出 发 。 设 有 了 与 基 配 对 ，(X,， 
了 ,)i 一 1，2，，…，。4 是 来 自 《C XX，Y ) 的 随机 样本 。 对 给 定 的 
x ER 将 莹 ,，…， 区 ,中 恰好 等 于 x 的 那些 样本 挑选 出 米 。 
例如 其 下 祭 汶 zy zy ‘9 了 《显然 坟 ， ta， rp ty 既 间 xX 有 关 ， 
也 问 样 本 XX 人 有 有关) , 则 在 估计 MI ( %) 时 ， 祥 本 ( X,， 
了 4 ) 了 一 1 2 *", ky 显得 比 别 的 样本 重要 。 如 用 他， 《XN) 
Ws (CX; XX，， 文 。 ) 表示 样本 ( XX, Y, 在 个 证 mmx) 
的 重要 程度 ， 或 者 说 样本 ( 关 ,，Y, ) 的 权 ， 则 Ww《%) 应 有 如 
于 形式 ， 

机 (xy》 -全 当 是 1 …， 纹 之 一 
0 ， 对 草 的 ? 


《6.62 ) 


这 是 因 及 一 加 7 一 1 2，…. 因 而 (到 0 Ye 应 有 祁 癌 的 权 ， 本 
总 数 一 共 为 个 ， 因 此 《6'62 ) 的 结构 是 人 台 理 的 。 由 此 (6'61 ) 
可 改写 为 

殉 。(%) = 习 Wa CX) Py, 


将 上 述 构造 过 程 加 以 推 广 ， 就 得 出 如 下 的 一 般 定义 。 
守 义 6:6 以 区 记 样 本 大 小 , 则 %* 个 形 如 WC%) = 二 WC xX; 
.Ge “ys 六 ) (2=1, 2 iy 7 ) 的 闭 数 ， 称 为 权 畏 数 ( 权 . 
W(X ) 20，] <i<ns > Wh (Cx) =1, (6.63 ) 


则 称 4TVn} 为 概率 权 珊 数 。 对 给 定 的 权 盘 数 {VY ,}， 定 义 回 归 范 
数 zz2《 区 》 的 估计 为 
Wa (A) = YW Cx)Y,, 《6.64 > 


并 称 Baa( 工 ) 为 14 Cx ) 的 一 个 权 孟 数 估 计 。 

从 《6:64) 可 以 看 出 ， 一 个 权 函 数 佑 计 完 全 由 给 定 的 权 盘 数 
{ 歼 忆 所 确定 ， 而 权 函 数 的 分 布 只 同 卫 的 分 布 有 关 。 样 本 了 ; (或 
者 说 ( OO 了,) ) 对 tra (x* ) 的 贡献 ， 除 其 本 身 之 值 外 ， 还 取决 
于 权 V4. 因而 权 育 。(# 表示 在 估计 mw《 x ) 时 ， 样 本 (XX,， 
了 ) 诬 起 的 作用 的 * 大 小 "。 帕 上 述 定义 可 知 ，( 6.62 ) 式 所 确定 
的 {Ww} 是 一 种 特殊 的 梳 率 权 函 数 ， 而 估计 ( 6161 ) 是 由 之 确定 
的 权 函 数 估计 。 下 面 将 介绍 两 种 构造 权 函 数 的 方法 ， 即 近邻 权 及 
核 权 方法 。 

1。 近 邻 权 方法 

其 直观 想法 是 ， 对 给 定 的 样本 下 ,，-…， 羡 , 及 x*ER， 昌 然 
可 能 没有 一 个 矶 恰好 等 于 x ， 但 可 将 “ 笑 于 x” 的 要 求 降低 类 
“与 x* 接近 ”"。 依 每 个 六 ; 对 给 定 x 的 距离 重新 排序 站 与 + 距离 
越 近 的 其 重要 程度 越 大 、 为 了 简便 起 见 , 我 们 选用 欧 氏 距离 11， 
将 样本 半 ,，…， 关 , 依 在 距离 | .的 意义 下 ， 与 x 的 接近 程度 排 
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IXm Xxh<IXr—xl<<IXa, Xl (6°65) 
王选 定 天 个 常数 Cu Cw， Wa Can 满足 条 件 
Ca Ca Cn 0, > Cu=l 《6-66 ) 


力 1C4:} 作 为 权 的 大 小 的 计量 。 因 Xp 与 + 最 接近 , 贼 予 权 Cniy 
其 次 一 个 是 六 ss， 赋 予 权 Ca，… 等 等 。 最 后 定义 权 画 数 为 
Wia, CX ) 一 Cat f=1l, 2, *, # 《6-67 》 
当 《 6.65 ) 中 有 等 号 出 现时 ， 可 采用 “ 足 标 靠 前 原 则 ?， 即 若 有 
i i<I EN， 使 |X 一 x 上 1= 上 六 ;一 x 上 1， 则 在 (6.65 ) 的 排序 中 ， 
六 出 现在 下 ; 之 前 。 称 如 此 定义 的 权 函 数 为 近邻 和 权 茵 数 。 注 意 
到 《6:65 中 的 下 标 站， R, yy 下 既 同 多 有 关 ， 又 同 样本 
牛 ;，…，X。 有 关 ,， 不 难 验证 近邻 权 荐 概率 权 函 数 ， 由 此 定义 可 
知 ( 6:62) 所 确定 的 权 函 数 是 近邻 权 的 一 个 特例 ,在 那里 杏 Cn 一 
Co 一 无 ， Cw 一 0， 当 +1<i<n; 而 R=!iy， fj 二 1，。2， 


"， 龙 ( 车 1 志和 之 和 之 之 机 所 #4)。 近邻 权 方 法 在 理论 上 已 经 证 明 
i 机 二 下 让 轨 放 王 天 全 三 
要 重新 掖 (6.65) 排 序 , 另 外 ,在 近邻 权 的 定义 中 距离 | .1 与 (6:66 )》 
中 的 常数 {Cn} 都 有 很 大 的 选择 余地 ， 这 正如 在 核 密度 估计 中 ， 
有 一 个 核 与 窗 宽 加 的 选择 河 题 。 | 

2. 核 画 数 法 
选 定 Ra 上 的 核 函 数 < . ) 及 窗 刘 加， 然后 定义 


Vat ) =K (tA 7 EK (5) ; 
ee ‘Ns 《6'68 ) 
称 此 { 歼 ,为 核 权 画 数 ， 由 权 务 数 的 定义 可 知 ， 核 权 医 数 也 是 概 
率 权 函数 ， 相 应 的 权 函 数 佑 计 为 


n(x) ~2K (所 和) Y,/ K E> 2 2 
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《6'69 》 
枯 计 《6-69 ) 的 合理 竹 可 作 如 下 解释 ， 设 5 大 ， 了 )》 有 联合 密 庶 
了 CX，y) 则 有 


mCx) =—ECyI#) 二 | yf Co yy dy/|f Cx yp) day 


S|yf x, y) dy/fz#). 
边 绊 密 讼 fz (x ) 的 核 估计 为 -1 轧 玖 《二 -) ， 而 
rm ya 可 用 一 二 - 访 K (和 全 )Y, 去 估计 分 别 
以 这 两 个 估计 作 分 母 和 分 子 即 得 (6.69 ) 。 有 趣 的 是 ， 当 取 


El <1 


0， 对 针 它 4 
六 中 Ca 为 Re 中 单位 球 的 体积 ， 记 
BlUx, a) ={t:tER, |t—xl<a}, 


ken) 


则 大 
TS 
当 久 ,EB (Cx, hh,) 
当 ,EB(x, 1,) 
又 加 到 近邻 权 的 情况 。 核 权 函 数 的 优点 起 有 一 个 明确 的 关于 x 的 
议 一 的 表达 式 ， 从 而 便于 计算 .但 由 于 (6.69 ) 的 分 母 是 随机 变 
量 ， 给 理论 处 理 带 来 一 定 的 困难 。 
三 、 权 范 数 估计 的 相合 性 
同 概率 密度 估计 一 样 ， 非 参数 回归 估计 的 理论 分 析 ， 到 目前 
为 十 其 深入 的 结果 也 上 只 在 大 祥 本 方面 。 本 段 着 重 介绍 由 Stone 首 
先 提出 的 权 函 数 佑 计 的 矩 相 合 性 。 可 以 说 在 这 方面 的 几乎 所 有 结 
果 论 证 都 较 复杂 因此 我 们 只 着 重 有 关 概 念 的 阐述 ， 而 对 提 到 的 
少数 儿 个 定理 ， 其 让 明 都 省 略 。 本 眉 将 采用 以 下 记号 
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多 


厂 . 和 ET) 会 厂 , (zt) | = 二 半 ，iHUn( 半 ) 会 HU,( x YX 一 发 等 短 。 

设 已 给 定 权 函数 {W,,}， 将 任意 了 与信 配对 , 考 碟 (x) 二 : 
怕 CY|x ) 的 估计 。 依 (6.64) 应 从 f(x) 二 SB Wan)Y, 信 - 
计 之 ， 其 中 人 Y,, “es 是 来 自给 定 立 的 样本 ， 其 绝对 依 益 


Go (xX) 人 lm (tx) 一 了 (YY) | 
可 以 用 来 衡量 权 范 数 {TV,,;}( 在 逐 点 意义 下 ) 的 优 劣 。 文 轴 上 有 
讨论 权 函 数 和 估计 的 逐 点 相合 性 及 逐 点 强 相合 性 ， 其 含义 是 指 分 别 ， 
其 有 下 述 性 质 ， 
a 当地 20 
及 
dC XTX)———>0, a.8.， 当 ho0. 
另外 一 种 途径 则 是 考虑 整体 精度 ， 即 绝对 偏 益 d,( 区 》 的 平均 .。 
直观 上 看 ， 一 个 好 的 权 泡 数 {wt 应 有 好 下 人 性质， 不论 与 六 妃 对 - 
的 YY 如何 选 取 ( 当然 要 满足 某 些 最 必要 的 条 什 ， 讽 如 对 站 有 一 从 
阶 的 矩 ?， 当 和 co 时 ， 由 之 产生 的 d,( 让 )，。“ 和 平均 地 说 ”应 股 . 
争 于 0 。 这 一 想法 导致 “ 矩 相 合 ” 的 概念 。 这 是 Stone 首先 提出 : 
的 ， 其 确切 定义 如 下 : 
定义 6.7 设 {WV,,} 是 给 定 的 权 函 数 ， 车 对 任意 的 ?之 1 及 任 


一 满足 
ElY|'< oo 《6:70) 
的 站 ， 都 有 | 
lim Ea (XK) "=0, 《6-71 ) 
册 称 { 本 ,为 矩 相 合 的 。 


注意 ， 此 定义 指 权 函数 本 身 的 相合 性 而 不 直接 指 缀 函数 咎 计 
的 相合 性 。 这 是 因为 定义 中 的 条 件 满足 与 否 ， 只 取决 于 权 函 数 本 - 
身 。 还 值得 注意 的 是 ， 在 此 定义 中 要 求 (6.71) 对 所 有 ?之 1 都 成 . 
立 。 因 而 气相 合 与 通常 的 ” 险 矩 ( 对 某 个 7 ) 相合 不 同 。 关 于 和 撼 . 
相合 的 一 个 基本 结果 古 如 下 的 
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定理 6.8 设 { 玫 ,为 给 定 的 概率 权 函 数 ， 则 其 矩 租 合 的 充 
要 条 件 是 
(1) 存在 有 限 常数 C， 使 得 对 任 一 非 负 函 数 了 都 有 


E( SW CXF CKY)) ECES xX) 
(2) 对 任 给 s>0， 当 2->ce 时 有 

BW XIX XL] 一 >0) 
(3) max WC ?0. 


一 定理 的 条 件 (1) 较 难 验证 ， 它 是 一 个 纯 技 术 性 条 件 ， 不易 作 
1 直 肖 上 前 解释 。 今 只 对 条 件 (27 (3) 作 一 直观 说 明 。 条 件 (2? 可 
理解 为 对 于 与 xX 距离 超过 某 种 限度 的 那些 样本 XX,， 其 权 的 总 和 
很 小 ， 因 而 在 估计 mC(XY) 时 ， 主 要 依据 最 接近 x 邑 在 此 限 度 以 
二 ) 的 那些 样本 。 条 件 (3) 意 昧 着 ， 作 为 单独 的 一 个 样本 点 X,， 
不 论 它 与 * 的 距离 多 么 接近 ， 所 起 的 作用 总 是 很 小 的 。 这 正如 概 
率 论 中 的 中 心 极限 定理 ， 单 个 样本 的 作用 小 ， 但 其 总 和 随 闭 % 增 
大 ， 其 作用 也 随 之 增 大 。 这 些 要 求 是 与 构造 权 函 数 的 基本 思想 一 
致 ， 因 而 是 合理 的 . 下面 是 这 一 基本 定理 对 近邻 权 及 核 权 汽 数 的 
Fy。 

定理 6:9 ” 设 给 定常 数 序 列 {Cw} 满足 (6.66)， 而 {WV} 是 由 
《3:65) 及 (6:67》 所 确定 的 近邻 权 。 如 

G) lim .名 Cm=0， 对 任何 s>0， 

(2) Jlim Cn=0, 
册 {IYw} 为 窍 相合 ， 

此 处 的 条 件 (2) 显 然 能 推出 定理 6.8 的 条 件 (3)， 人 
.对 每 一 *€ 以 ，e>>0， 存 在 10 使 得 

BW C x) Tix,_si>el 一 BD Won 和 ) iret>e 


一 之 Cn 


dn 
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因而 此 处 的 条 件 (1) 可 推出 定理 6.8 之 条 件 (2)。 但 定理 6.8 之 条 
件 (1 ) 的 验证 较为 复杂 ， 

定理 6.10 设 { 隐 为 以 下 为 核 的 核 权 函数 ， 而 天 为 展 荆 上 只 
有 紧 支 撑 的 有 界 概率 密度 。 若 

太一 0， 入 太一 ce 当 刀 一 ce， 

则 {1 ,.} 为 矩 相合 的 。 

这 一 结果 是 由 Deyroye 和 Wagner 得 到 的 ， 其 缺点 是 对 以 
的 要 求 过 严 。 

四 、 应 用 

本 段 介 绍 权 了 沪 数 佑 计 和 鸠 若干 应 用 ， 

1。 条件 二 阶 算 估计 

设 有 a 维 变 量 Y=( 2 “Vw ) 与 蕊 配对 ， 而 (人 XX, 
了 ), i 二 1，-…，h 是 来 自 ( 六 ，Y ) 的 随机 样本 ， 且 已 给 定 了 权 
水 数 {W,,}， 要 求 估计 给 定 半 =x 时 ， 了 的 条 件 二 阶 矩 。 例 如 YY 
的 分 景 的 条 件 方 差 、 条 件 协 方差 及 条 件 相 关系 数 。 因 

Var CY Hx =ECCY® x-CECY DY 1, 

Cov YO, Yn|x > —ErY'D YD)x] 

— ELY® |xJECY'S |x], 
pl 六， Yn|x ) 一 Co 《 Ym, 
YA Var CYS |x Var CYHIx) 
《5 f=1l, 2, *…, g) 

只 须 估 计 条 件 协 方差 。 记 估计 车 为 Cov CY 中， 六 |x 》。 由 权 
少数 估计 的 定义 ， 分 别 的 造 对 子 (着 ,了 》，《 站 ,YD ) 及 
《( 广 ，YI0Y(2) 所 产生 的 回归 函数 的 估计， 再 依 协 方差 结构 可 
得 

Covs CY®, YD|x) > Wo Cx 9 YEOYED 


-> Wi CR)Y 训 HF nk) YE, 
2 := 上 

《6:72》 
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再 令 7 一 5 又 得 Var lz 的 佑 计 Var (Yo2 |x)。 最 后 答 
义 P(TD， 了 了 0) 的 估计 为 

PK 了 ， 玉 人 1 =Cov, CF, 

中 (站 | 和 Var (了 了 | 和 Var X)9 
《6.73 》 

当 { 丈 , 四 是 概率 权时 ， 由 

(BWaYH YS EW )[E Wr) CY 7 

E=1 KE=1 B=1 


We 


知 ， 信 计 Var,《Y' |x) 守 0。 同样 可 知 1 (了 工人， 天 人 区 | < 入 1 
可 而 对 诗 条 件 二 阶 矩 估计 ， 要 求 { 帮 是 概率 权 函 数 是 合理 的 。 
对 于 二 述 鸽 计 ， 我 们 有 如 下 的 大 样本 性 质 。 
定理 6.1]1 设 {WW} 为 矩 切 合 的 概率 权 轴 数 , 且 EY :< 之 > 
则 有 
bm E{lCow YH, YOIR)—Cov (CY® ,YIX)} =0. 
(8.74 7) 
叉车 以 概率 1 有 Var CY XK )>0，Var CY ) >0, 网 对 
任 给 * 盖 0， 有 
lm E{lps CYS, YDIX -POYD, YOOX)I}=0. 
《6.75》 
证 ” 先 证 明 两 点 预备 事实 ， 
(1) 设 而 ， 7,，#，? 都 是 随机 变量 ， 若 
lim EC(Eé,.—E)*: = lim EC,—1) =0, 
人 如 
lim 天 is 一 如 | 一 0. 
氮 实 上 ， 出 假设 知 存在 常数 前 之 oo 使 得 五 cs 朵 ， 注 意 河 
Ea EF EEL， 由 Cauchy-Schwartz 
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等 式 得 到 

CEIE. -El 7) :SEE EE? >0， 当 No0p 

(CEIm—BI EME|IN—H| ->0, Bho0, 
涛 而 Elé,,— E77 >0, 当 Wo, 

(2) 设 2 守 0，E 宕 0， 有 lim£klé,— £1=0, 
种 

lim 巨 (w € -VE)’ =0. 

事实 上 ， [~ < —vV El<v Ee, tv 从 而 由 
(VE VE SIVE tvVEIIVE, —vVE I=It,—é1, 
即 得 记 证 . 

现 回 到 定理 的 证 明 。 假设 | 六 1? 之 co，1 二 ?2 二 4。 尖 而 
万 1YWYD| 之 mo。 出 矩 相合 定义 ， 分 别 考 韦 Y 了 YY 中 与 区 及 
YY 与 了 配对 ， 并 分 别 取 ?==1 及 2， 得 到 

lim E| SWC XOYOFDP ECYOYDIE)|=0, 

人 -= k=1 

《6'76 ) 


lim El Ws CROY HECYOIX)|=0, (6'77) 


在 预备 事实 (DD) 中, 取 各 一 写 WwCX)YS9 0 一 台 Wun(X)Y 0， 
£=ECYHIX), 97=ECYH|Y), MM 6:77 ) 知 ， 
EC(E.— E>0,E (7) >0， 当 Nn>%0，。 
办 而 由 预备 事实 (1? 即 得 
im E|(B Wa OPH)(B Wm XY) 
ECY®HIX ECYHIX|=0. (C6:78) 


由 (6:76》、C 6.78》 即 得 
lim ElICov, CYS ,YHDIX) 一 Coy CY ,YX =0, 
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此 即 ( 6.74 ) 成 立 。 令 ji， 叉 得 
lim ElVar(Y HIX)—Var(Y |X)|=0. 


再 由 预备 事实 (2)， 有 
lim ElMVam(Y™ |X)—M Var (YS | 下) =0， 


1 一 1，…，4. (6.79》 
再 由 已 证 的 (6.74 ) 及 (6:73), 并 注意 到 
Var CY® |X)>>0, a. 8., Var CYnNIX >0, a. Ss., 


可 得 p 
Pr CY FOX zp CVS, YHW|IX),Y n> 


但 :ps CY 了 YY YOR)| 志 lI，|P CY ,YD|K)| 吉 15a.$. 由 此 
易 得 《6.75) ,定理 证 毕 ， 
2. 条 件 分 位 数 估 计 
设 Z 为 任 一 随机 变量 ， 力 E 《0，1)。 如 果实 数 5 满足 
PlUZ<E) SDEP(ZSE,) 
则 称 E 为 Z 的 分 位 数 . 车 下 为 Z 的 分 布 函 数 ， 有 时 也 称 
E59 为 下 的 思 分 位 数 。 一 般 &, 并 不 叭 一， 但 有 如 下 性 质 : 令 
c=sup{t:F Ct) <p}, d=Inf{t:F (1t) Fp}, (6°.80) 
则 -=o<G<c<co， 县 < 为 如 的 尹 分 位 数 当 且 仅 当 és,E Le, dj。 
分 设 有 随机 变量 了 与 卫 配 对 《 卫 仍 设 为 4 维 镶 量 )， 以 FF (*1x》 
记 给 定 天 =x 时 ， 亚 的 条 和 件 分 布 函数 , 记 其 记分 位 数 为 6(p1x)。 
《入 Y,), zi 一 1， “5 十 来 自 (X， 了 的 随机 样本 ， { 开 为 
基于 六 ,，…， 区 ,的 一 个 给 定 的 权 惠 数 。 则 ( FC 1x ) 的 权 郑 数 
估计 为 
F, Cylx) = SD WC x) Toran: (6.81) 


易 知 若 {T 为 概率 权 项 数 ， 则 五 ,( yix ) 作为 了 的 函数 是 一 维 
分 布 函数 。 以 巨 。( :xz 的 任 一 加 分 位 数 和 ( 才 X 作为 E( 疡 
1z > 的 估计 。 显 然 &,( 1x) 由 权 通 数 { 琴 。 所 确定 ， 但 并 不 史 
一 、 然 而 出 乎 意料 的 是 ， 在 某 种 限制 十 ， 当 去 ( 力 x ) 唯一 时 (此 
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Ht&6《 DPI%)》 仍 不 必 唯 一 ;， 不论 姻 何 选 择 E 5 pp1x)， 其 大 样本 
极限 是 唯一 的 ,实际 上 ,车 记 工 (Cplx)， CU(p|X) 分 别 为 Fl:|x) 
的 分 位 区 间 的 左 、 右 端点 ,而 LC px)， Us( pp|x) 为 Fa(*|%》 
的 考分 位 区 间 的 左 、 有 端点 ， 刚 [LC pix)，Ua( plx)] 可 以 作 
为 上 ( 力 1#) 的 一 个 区 间 估 计 。 上 面 提 到 的 那个 事实 可 以 看 作 是 
(plx) 的 区 闻 估 计 的 一 项 渐 近 性 质 。 我 们 将 此 事实 确 切 表 示 
为 下 述 的 定理 。 

定理 6.12 设 {Wa} 为 拭 相 合 的 概率 权 函 数 ， 著 下 ( .| 巧 ) 
以 概率 1 有 唯一 的 户 分 位 数 &(p| 卫 ), 则 不 论 如 何 选择 ECP1x)， 
都 有 


EC PIX)—>E pIX). (C6:82) 
又 车 对 某 个 +>0 有 万 上 了 了 |"< co， 则 
lim ELIé, C plx) —€¢ p71"I=0. ( 6:83) 


证 明 ， 依 假设 ， 以 概率 为 1 地 有 
| LPIX)Y =U CpIX) =é (pIX), 
因而 有 
[énC PIX) -ECPIAI SIU CPIX) -UC PIX) 
+iLC pl ) —L(C PIX)-, a.s. 
为 此 具 须 证 ， 当 nn 一 oc 时 有 


[U, C pIX ) -U (pIX)J'—>0, (6:84) 
P 
、 LC PIX) —L( DIX) ——0, (6.85) 
以 及 
E{[U, CPIX) -UCDPIX):}—30, . (6.86) 
E{LLaC PIX) —LCPIX)TY—20, ( 6-87) 


而 (6 84)、《 6.85 ) 包含 在 下 述 结论 之 中 ， 
对 每 -s>0，lim P{L,( PIX ) >L (pIX) 一 时 =1， 


lim PIU,C PIX ) <U CpIX) 4s}=1, 
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其 思想 是 充分 利用 扼 相 合 的 概念 ， 构 造 合适 的 因 变 量 与 筷 配 对 。 

为 了 证 《6.86 )》 及 (6.87 ) ， 必 须 证 {[La《 pliXX)1"} 以 及 
{UsC 思 | 关 )1"} 一 致 可 积 ,以 及 (pI 革 ),U (pIX)r 阶 撼 
有 限 , 后 者 可 由 JY |’ 之 =o 推出 ,而 前 者 通过 建立 下 述 居 计 得 到 

E{IL, {plX Tisai } CENY | Tryzzl )， 

E{lUVUsC pIX) "Tone } CE CY Ty sa )。 
其 中 开 汪 0， 面 Cs 是 仅 同 了 有关 的 绝对 常数 。 

3， 预测 

设 有 自 变 量 了 及 因 变 量 站 ， 天 、Y 了 可 为 多 维 。 已 知 六 有 观察 
让 ， 人 NY 的 值 尚 未 观察 (或 在 观察 了 时 尚 不 能 观察 YY)。 要 由 x 来 
预 浏 和 的 值 。 便 如 七 为 施肥 量 ， 了 为 亩 产 其 。 当 已 知 碟 一 X 时 ， 
YY 的 位 楼 等 到 收获 时 才能 观察 。 但 人 们 希望 在 收获 前 ， 能 从 x 陡 
测 秋 疙 取 和 何 值 。 今 Ly,a ) 表示 当世 实际 取 值 为 而 预测 为 a 
时 的 所 失 。 通 常 工 取 平 方 损失 或 绝对 但 损 失 这 西 种 形式 。 设 
8 Cx) 为 其 个 顶 预 规则 ， 即 当 X 到 值 二 时 用 5(x ) 预测 了 之 全 。 
出 于 七 取 % 有 随机 性 , 因而 较为 合 阳 的 是 采用 平 鬼 损 尖 ELCY， 
6《 六 ) ) 作为 预测 规则 6 (' ) 的 精度 测度 。 称 EL (Y，6(X)》 
汶 56 的 (在 工 下 ) 风险 , 若 有 规则 CC。》， 使 得 : 

ELCY ,6*(C XN)) = inf ELCY, GCX))AER*, 《6-88 ) 
则 称 59 为 《在 损失 工 下 的 》Bayes 预测 ,而 称 R* 为 Bayes 预 
测 风 险 。 上 上 式 的 inf 是 取 遍 所 有 可 能 的 预 浏 规则。 不 难 求 每 ， 当 
L(tY, a)=(Y—a) NH, (x)—~E(YIx): L(Y, 
a) 一 IY 一 Ql 时 ,5s Cx) 一 6 (二 |x)。 因 而 当 (XY，Y ) 的 分 


布 已 知 时 ， 可 以 求 得 Bayes 预测 绪 。 但 在 实际 问题 中 CX，Y 》 
ee 只 有 来 自 《 羡 ， ) 的 历史 样本 (天 ，T )， 
i—=1, 2 例如 ( 失 ， 了 工 , ) 是 前 几 年 的 施肥 量 及 谋 产 量 。 
1 《wx) 。 记 任 一 这 种 估计 为 6(XY》-= 
Br CX X,, 了 入 Yi oO 《作为 一 个 预 浏 规则 ， 运 
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然 有 五 凡 (了 ，8【〔 工 让) 关 Rs、 直观 上 我 们 可 以 期 望 一 全 好 的 佑 
计 嫩 使 当 样 本 容量 不 断 增 大 时 ， 其 风险 逐渐 接近 R*。 于 是 引出 
如 下 的 定义 。 

定义 6.8 设 工 为 给 定 的 损失 、， 如 一 个 估计 88 使 得 

lim ELCY, dr CX))=EY, 《6'89 ) 
出 称 65 有 (在 上 下 ) Bayes 相合 性 .又 如 268 是 由 家 函数 { 歼 小 
所 确 定 ， 员 称 { 人 共有 (在 工 下 )Bayes 相合 性 。 

下 面 我 们 考察 上 为 平方 损失 及 绝对 值 锅 失 两 种 特殊 博 浇 。 

当 工 (了 ,ea) 一 (了 一 42， 此 时 Bayes 预测 即 给 定 不 一 
时 的 条 任期 望 。 因 而 可 由 给 定 的 权 函 数 { 了 全. 当 构造 如 下 的 估计 

SC 4) EE Wx) YF, (6.90 ) 


当 L( 了 ,4) =IY 一 a| 时 ， 其 相应 的 Bayes 也 测 为 给 
注 二 x 时 了 的 条 件 中 位 数 ， 可 基于 给 定 的 {本 ,,} 的 定义 估计 

8% 4) 全, (二 | x ) 一 访 Wax) Tey 的 中 位 数 ， 

( 6.91) 

出 定理 6.12 立即 可 得 如 下 的 大 样本 性 项。 

定理 6.13 设 { 隐 为 矩 相合 的 概率 权 通 数 ， 且 
若 ( 字 |X) 久 概 率 1 唯一 ， 则 在 络 对 值 损失 下 {Tw} 有 Bayes 
理 合 性 《因而 6+, 有 Bayes 相合 性 )。 

关于 估计 62 也 有 类 亿 的 竹 质 ， 我 们 有 

定理 6:14 设 { 环 为 逢 相合 的 概率 权 画 数 ， 且 

ElYl?<o, 

列 在 平方 损失 下 { 储 为 Bayes 相合 《因而 估计 5 有 Bayes 相 
合 性 )， 

证 因 万 | 了 了 |: 之 oo， 出 矩 相合 的 定义 知 

lim Eon (CX ) ~ECYIX)J=0. (C6.92) 
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广 意 到 
EL(Y, 6 CX))=EIY ~—6% (CX) 3: 
—E[Y-EC(Y XX) 
+ECNX)})-ECY!'X ): 
十 2 五 -站 一 五 (和 | 三 )] 
[65%. (XEC(YIX)) 
会 JT nT fnss 
叉 由 《6,92)， 可 得 Tim /n=0, lm Jns=0., 
而 CY|x) 是 平方 损失 下 的 Bayes 预测 ， 故 有 
a 
于 是 lim ELCY, 6%(X))=R". 定理 证 毕 ， 


最 后 要 指出 的 是 ， 权 孙 数 方法 有 广泛 的 应 用 领域 ， 以 上 涉及 
的 三 个 应 用 专题 只 是 其 中 的 一 部 分 ， 例 如 这 种 方法 在 非 参 数 判别 
中 也 有 重要 应 用 ， 我 们 将 在 下 一 节 中 介绍 。 


86.4 非 参 数 判 别 


一 、 问 题 的 提 法 

先 看 一 些 例 子 。 

例 6*1 某 地 区 流行 肝炎 ， 为 诊断 某 人 有 无 肝炎 ， 须 抽 授 样 
工行 化 验 ， 其 化 验 结果 《〈 一 般 有 若干 项 指标 ) 可 用 一 个 向 量 基 表 
示 。 用 Y= 0 表示 某 人 无 肝炎 ， 世 一 1 表示 有 肝炎 。 工 是 一 个 取 
二 值 的 类 指标 变量 。 因 而 从 该 地 区 随机 地 抽取 的 一 个 个 体 ， 对 应 
车 随机 向 量 ( 基 ，Y 》 的 一 个 值 。 显 然 化 验 结果 其 对 判断 有 无 肝 
炎 《 即 工 的 值 》 有 很 大 作用 。 但 医学 常识 告诉 我 们 ， 工 取 何 值 沿 
不 能 据 民 所 完全 确定 。 这 受到 医生 的 临床 经 验 、 化 验 手段 是 否 糖 
确 可 靠 以 及 病人 有 无 其 它 疾 病 等 因素 的 影响 。 因 而 这 也 是 一 个 统 
社 推 浙 问 题 。 如 保有 一 批 历史 瓷 料 { 于， 了 )， 一 1 可 
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用 一 一 这 意味 着 以 往 曾 对 %% 个 人 必 化 验 ( 确定 瑟 )， 并 最 终 观 察 
了 每 个 人 是 否 患 肝炎 ， 则 对 当前 来 接受 化 验 的 人 ， 可 按 其 化 验 结 
时 瑟 ， 参 考 已 细 样 不 {( 上， 了 了 D)，2 一 1，2，…，2%} 对 其 相应 的 
节 值 作出 判别 以 此 之 故 ，{( 环卫 )，1 一 1，…， 了 党 称 为 放 
练 样 林 ， 意 指 它 “训练 了 ”大 们 奶 何 去 进行 判断 。 

例 6.2 设 某 种 作物 其 有 3 个 类 ， 为 对 地 球 上 该 种 作物 进 
行 大 面积 分 类 ， 通 过 卫星 观察 得 遥感 卫星 照片 数据 。 每 一 张 照片 
都 对 应 有 一 个 四 维 数据 及 ， 表 未 照片 所 在 地 区 对 由 个 光谱 带 的 反 
射 强度 ， 而 反射 强度 的 大 小 与 照片 的 色彩 有 关 ， 用 了 表示 某 地 区 
这 种 作物 所 属 的 类 ， 则 了 为 取 WL 值 的 类 指标 变量 (例如 了 到 1， 
2，…，AM)。 在 具体 分 类 以 前 ， 沉 抽取 其 中 的 少数 照片 ( 例如 
张 ) ,基于 实地 考察 以 分 别 确定 这 刀 张 照片 所 涉及 的 地 区 实际 上 是 
属于 哪 一 类 ， 这 桩 得 到 2 个 祥 品 的 观察 指标 〈《 环 ， Y) ,i=1, 2¢ 
“…，Z# 。 然 后 据 此 对 剩 下 的 丽 片 进行 逐 张 判 别 。 

例 6.3 为 对 某 地 区 未 经 期 探 的 井 位 依 有 油 、 无 油分 类 《用 

YY 表示 荣 井 位 的 类 指标 ) ,使 用 地 震 勘 探 技 术 可 获得 每 个 井 位 区 地 

质数 据 ( 用 一 个 多 维 指 标 向 量 久 表示 ), 在 分 类 前 选取 少数 的 井 位 
《例如 如 个 》 进 行 实 地 钻探 ,分别 得 到 7 个 类 指标 六 ,，…，Y 了 ，。 
由 本 外 并 费 用 的 昂贵 ， 对 别 的 并 位 在 确定 是 否 项 要 布 并 前 ， 针 要 
进行 井 位 分 类 ， 因 此 要 求 对 每 一 个 并 位 的 地 质 资料 全 ， 据 已 获得 
的 举 本 C 蕊 ， Y,),i=1, 2 "Hh 判定 相应 的 了 了 值 ， 

以 上 这 些 例 子 有 这 样 几 个 共同 特点 ， 首 先 都 有 一 个 取 有 限 值 
的 类 指标 以 及 反映 试验 结果 的 指标 向 量 玉 。Y 同 天 有 关 ， 但 知 
道 卫 还 不 足以 完全 确定 六 到 值 ， 如 在 例 6.3 中 知道 某 间 位 的 地 质 
资料 天 ， 还 不 足以 判定 该 井 位 有 油 还 是 无 油 。 这 是 因为 地 质 构 造 
是 非常 复杂 的 ， 现 代 科 学 技术 虽 能 分 析 大 部 分 地 质 构造 带 变 异 的 - 
因素 ， 但 疝 不 能 说 已 掌握 所 有 药 因 素 ， 其 次 某 间 位 有 油 无 油 除了 
地 质 构 造 这 一 主要 因素 外 ， 还 受 其 它 因 崇 的 影响 ， 因 而 在 了 中 并 - 
未 包 合 Y 的 所 有 信息 。 折 以 由 天 判定 了 是 一 个 统计 间 题 . 其 二 
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是 ，( 有 卫 ，Y ) 的 联合 分 布 是 未 知 的 ， 如 在 例 6.1 中 ， 已 知 某 大 
和 前 血样 为 x*， 对 其 为 肝炎 的 发 病 率 究竟 有 多 大 ， 现 代 医 学 尚 无 确 
前 都 先 要 有 一 组 经 过 明确 判定 的 样品 。 第 i 个 样品 的 试验 指标 为 
攻 /,， 类 指标 为 了 ,。 这 里 的 了 是 通过 其 它 的 试验 手段 得 到 的 , 如 
在 例 6-1 中 是 通过 临床 观察 ， 在 例 6.2 是 通过 实地 考察 ， 而 在 例 
6.3 则 是 通过 钻井 得 到 。 它 们 构成 日 后 进行 判别 工作 的 一 个 重要 
依据 。 最 后 》” 洪 同 的 问题 是 要 求 对 新 样品 判定 其 所 属 类 ， 邮 对 任 
一 给 定 的 卫 ， 判 定 相 应 的 了 值 。 这 种 例子 还 可 举 很 多 ， 文 献上 称 
a 由 于 对 《( 革 ，Y ) 的 分 布 类 型 并 无 特殊 假定 ， 
器 题 属 非 参数 性 质 ， 故 可 称 为 非 参 数 判 别 。 我 们 可 以 将 判别 问题 

Wt 设 某 种 对 象 可 以 划 归 为 MI ( 减 2 ) 个 类 中 的 一 个 ， 而 
且 只 能 一 个 。 用 YY 表示 类 指标 ， 而 为 洲 对 象 的 若干 特征 的 指标 
变量 。( 瑟 ， 了 三 的 分 布 未 知 ， 假 定 在 以 前 鉴定 过 % 个 样品 
天 1，…， 上 必 。， 且 分 别 知 其 所 属 的 类 为 卫 ，…， 了 . 称 
Zn 会 {1 (全 1 Yt=1, 站 
为 训练 样本 . 它 是 5 刁 ， 了 ) 航 独 立 同 分 布 观察 值 . 今 有 新 样品 
并 已 涓 出 其 了 指标， 有 要 利 峙 天 之 值 并 借助 于 Zr 去 判别 此 样品 所 
属 的 类 Y. 

在 上 面 的 提 法 中 ， 嚼 然 也 可 将 了 看 作 因 交 晤 ,了 革 看 作 特 痰 
其 ， 供 与 预测 问题 不 同 的 起 ， 因 变量 YY 只 取 有 有限 个 值 ， 而 且 判 别 
结 末 必须 是 这 有 限 个 可 能 值 中 的 一 个 。 而 在 预测 问题 中 ， 因 变量 
可 取 连 续 值 ， 预 浏 结果 也 可 能 越 出 站 取 值 范 围 之 外 。 其 次 ， 类 变 

量 工 的 各 个 可 能 信 只 是 所 代表 类 的 标记 ， 其 值 的 大 小 并 无 意义 。 

而 癫 注 问 题 中 ，Y 一 般 基 预测 对象 的 实在 值 ， 其 大 四 有 通常 的 意 
义 。 因 而 在 判别 问题 中 ， 当 和 实际 属于 类， 而 判定 为 2z+1 类 
并 不 一 定 比 判定 为 ;+2 类 米 得 好 。 但 当 Y 实 际 上 为 了 ， 而 预测 
其 为 了 十 1 当然 要 比 预 测 为 了 十 ?来 得 好 。 

我 们 在 86.1 也 曾 提 到 过 判别 问题 ， 依 这 里 的 一 般 提 法 可 以 看 
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成 是 一 种 特殊 情况 ， 即 所 属 类 的 总 数 履 一 2, 且 假定 在 给 定 Y =f 
和 时， 成 有 条 件 密度 。 些 时 三 用 在 那里 提供 的 似 然 方法 是 有 效 的 ， 
在 下 面 几 上段 我们 将 分 别 介绍 在 一 般 铺 况 下 ， 非 浴 数 淹 别 的 有 关 概 i 
念 及 方法 。 

二 、 一 般 概 念 

往 后 总 设 站 为 类 变量 ， 为 指标 这 量 ，Y 了 只 取 1, 2 
为 其 可 能 值 ， 呈 为 4 维 随机 向 量 。 浏 别 问 题 的 基本 假定 是 ， 

《1i) 给 定 工 一 1， 成 丰 条 件 分 布 

Fr)=:PCXErIY=), 1=1, 2, :*, MM, 

《2) 了 的 分 布 为 

p=PCY=D), i=]1, 2, *', MM; 

(3) 全 {C1 二 1，2，。，…，H} 是 来 身 《( 江 ,YY ). 
的 独立 问 分 布 样本 ， 

如 假定 给 定 了 =i,。 玉 有 已 知 的 条 件 密度 方 (好 1 一 1 
MM， 则 元 须 假定 (2) 及 (3)， 其 至 YY 不必 漆 成 是 随机 的 .此 对 
可 采用 8§6:1 所 述 前 似 然 方法 (对 于 一 般 的 机 如 和 何 处 理 放 在 后 面 
介绍 ) 判定 环 所 属 的 类 ， 当 请 有 《% ) 为 未 知 时 ， 可 以 侯 用 密度 
倍 计 的 方法 估计 之 。 其 次 ， 在 通常 的 情况 下 ， 接 受 检验 和 判定 的 
样品 ， 共 取得 或 来 源 是 随机 的 ， 变 假定 六 为 随机 变量 是 合理 的 ， 
在 例 6.1 中 ， 了 了 取 0 或 工 是 随 优 的， 例 6-2 中 ， 在 实地 考察 前 ， 
基 信 地 区 的 照片 答 好 属 示 镭 一 个 类 是 随 志 的 在 例 6.3 中， 在 知 
并 时 茶 个 井 位 有 流 、 匹 总 也 是 随机 将。 蘑 于 这 一 原因 ， 很 岩 (2) 
咎 的 { 加 起 着 先 验 分 布 的 作用 ， 往 后 我 们 训 穆 它 为 匈 验 分 布 ， 
{Pr} 一 般 是 基于 过 去 的 经 验 、 一 定 的 理论 分 析 及 专业 知识 得 到 
的 ， 而 并 不 依赖 试验 结果 及 的 信息 ， 如 全 6.1 可 基于 该 地 区 在 历 
史上 曾经 流行 肝炎 的 资料 得 到 肝炎 发 病案 的 估计 ， 而 同化 验 等 试 . 
验 手段 元 关 。 先 验 分 布 对 判别 结果 有 直接 影响 。 因 为 阁 该 地 区 发 
狂 率 很 会 ， 出 必须 有 更 多 的 证 据 〈 相对 于 高 发 地 区 而 言 ) ,才能 更 
放心 地 判定 某 入 有 肝炎 。 表 次 ， 由 假定 (1) 及 C2)，( 久 ，Y ) 的 
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联合 分 布 也 就 随 忌 确定 ， 因 而 假定 (3) 应 理解 为 Z。 是 从 业 联合 
分 布 抽取 的 简单 样本 。 出 十 《 天，Y ) 的 分 布 未 知 ， 知 道 了 还 不 
足以 判定 下， 样本 乙 是 多 次 从 萤 , 车 定 了 ,的 实际 经 验 总 结 , 包 
食 了 《天 ，Y ) 联合 分 布 的 有 关 信 息 ， 因 此 对 Zn 冠 之 以 “训练 
样本 ”的 称谓 。 训 练 样本 在 非 参 数 兰 别 中 的 作用 是 十 分 重要 的 ， 
要 有 水 六 练 样本 是 独立 辐 分 布 ， 这 对 实际 选取 训练 样本 施加 了 一定 
的 限制 。 例 如 ， 不 能 把 来 源 条 件 不 同 的 样本 混在 一 起 。 如 在 例 
6.2 下， 我 们 必须 随机 地 抽取 其 中 的 志 张 照片 进行 实地 考察 ， 而 
不 能 贪图 方便 只 选 相 邻近 几 个 地 区 的 照片 ,后 者 显然 缺乏 代 性 
在 作 了 上 述 假定 之 后 ， 统 计 模 型 就 随 之 确定 ， 随 后 最 重要 的 
ete NS a bh 为 此 先 要 明确 什么 
是 判别 规则 ? 我 们 称 一 个 定义 在 样本 空间 R* 上 的 取 值 于 {1，2， 
， 人 机} 的 函数 9() 为 判别 函数 (或 称 判别 规则 )， 使 得 一 旦 新 样 
本 闪 有 了 一 个 多 全 定 值 x ， 就 依 此 规则 将 它 判 归 类 g(%)。 依 此 定 
义 ，8o《*) 二 1 也 是 一 种 判别 规则 ， 但 显然 go 是 一 种 不 足 取 的 判 
别 规则 。 然而 如 何 辨 别 一 个 规则 的 好 坏 呢 ?这 可 以 通过 因 错 判 而 
带 来 的 损失 夫 考 察 。 我 们 四 上 (i， 力 表示 当 实际 了 = 二:，。 而 兰 定 7 
时 记 受 的 损失 ， 下 面 就 是 一 个 最 简单 的 ， 也 是 最 常用 的 损失 函数 
:0、 当 7 = 二 
L¢i, nn i (6.93 》 
邵 判 对 时 无 损失 ， 而 只 要 是 错 判 ， 其 损失 都 一 样 ， 称 此 损失 函数 
为 0-1 损失 。 我 们 约定 ， 在 本 节 的 后 文 叙述 中 都 使 用 这 种 0-1 损 
僚 。 对 于 给 定 的 一 个 判别 规则 9， 册 于 及 9 (0 ) 都 是 随机 变 
景 ， 因 而 对 使 用 g 所 蒙受 的 损失 尚 须 取 平 均 . 称 R(g) 会 EL(Y,， 
9( 失 )) 为 规则 9 的 风险 、 尼 (9g) 表示 多 次 重复 使 用 g 作 判 别 ， 
所 可 能 招致 的 平均 损失 。 吻 见 ， 
Rg) =E(L(Y, gt(X))=P(L(CY, g(X)) =1) 
=~P(g(X)+Y )， | C6:94) 
押 而 一 个 羯 别 规 出 g 的 风险 即 是 其 错 状 概率。 直观 上 ， 错 判 慨 率 


» 201s 


是 一 个 判别 规则 的 有 效 程度 的 一 种 度量 ， 错 判 概 率 越 小 越 有 效 . 
往 后 我 们 还 采用 另 一 种 度 是 ， 即 后 验 风险 或 后 验 错 判 概率 ， 

rlg; X) 全 PC98(C 人 )》 尖 了 和 一 X )， 《6.95) 
后 验 错 判 秦 率 + 《9; %) 的 含义 是 ， 在 具 同 一 指标 % 的 样品 群 
中 ， 用 汰 影 规则 g 时 的 错 判 概率 。 人 (9g ) 与 Y(g9; * ) 之 间 有 
如 下 关系 ， - 


Rigy=)rogs 4)dF C4), ~ C6.96) 


其 中 五 是 蕊 的 分 布 画 数 。 电 上 述 可 知 ， 在 0-1 损失 下 ， 错 判 概 率 
愈 小 ， 该 判别 规则 愈 华 。 这 引致 下 面 的 定义 。 
定义 6.9 设 g* 是 : :个 给 定 的 判别 规则 ， 如 对 任意 一 个 判别 
规则 g， 都 有 . 
Peg (XIY EPig( KIHY) (C697) 
则 秘 g* 为 最 住 判别 或 称 Bayes 浏 别 规 则 ， 而 称 
RAP(g*(X)#Y) C6.98) 
为 .Bayes 风险 或 Bayes 错 判 概率 ， 
”其 所 以 把 最 佳 判 别称 为 Bayes 判别 ， 是 因为 上 文 指出 的 一 
个 事实 ， 即 YY 的 分 布 带 有 先 验 分 布 的 性 质 。 在 一 般 情况 下 ， 由 于 
( 六 ，Y ) 的 联合 分 布 不 知道 。 Bayes 判别 规则 无 法 求 出 。 营 已 
知 Y 的 分 布 为 六 一 已 (了 一 人 3 一 1，…K， 以 及 给 定 节 一 ;时 碟 
的 条 件 密度 fx), 则 不 难 求 得 ， 在 已 知 二 x 时 ， 了 的 条 件 分 
布 为 Ee z 
XIOPCY=IIX=x 》 
CO SD pt il, *, M, « ER 
(6'99) 
而 Bayes 判别 规则 g* 为 = 
9 (£) 一 加 其 轴 C4) 一 max fy) (6:100) 


换言之 ;那个 类 的 后 验 ( 条 件 ) 概率 最 大 ， 即 将 样品 浏 归 访 类 . 
这 规 出 在 直观 上 显然 。 我 们 约定 ， 当 使 W(x* )》 达 到 最 大 的 所 不 
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此 一 个 时 ， 取 标号 最 小 的 那 一 个 , 《6.100 ) 的 确定 是 基于 Bayes 
统计 的 基本 原则 ， 印 使 后 验 风 险 最 小 原则 。 此 处 易 直 接 证 明 ， 
乡 箭 包销 判 概率 最 小 之 判别 规划。 若 《 才 ，T ) 的 分 布 未 知 ( 这 
对 {pp 或 fi 未知)， 雹 法 起 据 《 6.100 》 确定 Bayes 观 则 9*， 
一 种 日 然 的 途径 是 使 用 训练 样本 合计 后 验 分 布 {7 (%*)} 、 以 
{m4(X)} 记 这 样 一 个 估计 ， 用 quw 代替 内 于 《6.100)， 而 得 出 如 
下 的 羯 别 规则 ， 
gr (XI) = X Zr 一 如 CX) 一 max ns ( 区 ) ， 
《6.101 ) 
显然 有 一 种 估计 和 7 fx ) } 束 有 一 个 规则 名 5x)。 由 于 此 法 也 是 
基于 万 验 分 布 ， 故 称 此 种 构造 判别 规则 的 方法 为 Bayes 方法 
《Bayes 方法 指 构 造 判 别 规则 的 一 类 方法 ， 不 此 与 作为 最 佳 判 别 
法 的 Bayes 判别 规则 混为一谈 )。 往 后 还 要 介绍 其- -种 基于 Zn 构 
造 漳 别 规 驰 的 方法 ， 归 最 近邻 法 ，Bayes 法 与 最 近邻 法 构成 非 参 
数 判 别 的 两 种 主要 方法 . 
现 设 gn(%) 全 gn (xX; 2 ) 为 基于 24 的 任意 一 个 状 虽 规 
则 ， 即 对 固定 的 Zn，9，( x ) 作为 < 的 函数 是 一 个 判别 函数 ， 因 
而 依 Bayes 风险 的 定义 ， 应 有 
Pilg, KX) FY ) >R’, 《6.102 》 
一 般 说 来 等 号 不 成 立 , 但 有 理由 期 望 ， 一 个 好 的 规则 g,， 当 训练 
样本 大 小 如 不 断 增加 时 ， 其 错 判 概率 可 以 随 之 通 近 RR*。 这 是 因 
为 一 旦 有 了 一 个 “无 穷 大 ”的 样本 《下 了 (三 了 9 
则 相当 于 对 《 对， ) 的 分 布 有 了 完全 的 知识 ， 即 知道 了 ( 到， 
了) 的 分 布 ， 因 而 也 就 可 确切 地 定 出 Bayes 判别 , 我 们 也 可 以 从 
另 一 角度 评价 g ,的 优 劣 。 沁 . 
ALCgns Zn =P(g9, (XYFAYIZ), (6:103) 
Fn CK) A Gns X» 会 P(g (XK)AY|IX=x), (6:104) 
r* Cx) A Gg, XOP (RIFYINo x), (C6105) 
其 中 及 为 Bayes 规则 ，L,，、?。《 x ) (xx) 都 是 不 同 条 件 下 的 
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后 验 错 判 概率 。 虽 有 
R*-:= Er* ( X), 
RCOgn) :EL, (gn, Lo}=Er (9, KX). 
而 县 由 《6-105) 知 
zr*(《X) 一 1 一 尼 (9( 有) 一 了 I 
一 1 一己 ( 和 -9 (YX 》 X=7 
=—1-~frr (KX) 
一 1 一 max (C(x), (6-106 》 


vi 


为 此 ， 价 如 汉 姑 一 so 时 ， 有 
办 
FnC Ga， i Sa (CX), 
或 者 
Ln { gn, ZZ » Re 


rn a 
(AS, ) 


可 以 认为 规则 98 在 某 和 5 往 庶 土 是 好 的 。 量 I， 及 加 (7 都 有 其 
实际 意义 ， 和 特别 是 过。 工 ， 表示 在 给 定 训 练 样本 Zr 的 条 伯 下 ， 
gn《 虞 多 次 使用 同 … 个 2 ) 作 淹 别 ， 其 条 件 平 均 
员 朱 在 许多 实际 问题 中 ， 出 于 种 种 原因 ， 同 一 训练 样本 要 反复 
0 如 例 6.3 中 ， Z。 是 通过 实地 外 并 得 到 ， 钴 每 口 井 耗 
资 其 大 , 交集 对 2 其 为 珍 异 。、L， 作为 一 种 有 效 程 度 的 度 姑 恰 迪 
适 这 这 一 -要求 。 在 这 种 情况 下 ， 作 为 无 条 件 平均 《gn ) 显得 没 . 
有 入 雪 实 册 价值 。 
三 、Bayes 方法 
上 一 段 已 经 提 到 ,Bayes 方法 的 要 肯 是 :基于 训练 伴 本 Zs 向 
计 后 验 分 布 {(C2)}， 然 后 依 56:101 )》 招 造 兰 别 志 巾 ， 使 钳 判 概 
率 尽 可 能 好 小 下面 介绍 两 种 估计 后 验 分 布 的 方法 ， 锅 权 通 数 法 . 
及 概 冻 罕 座 侦 让 法 ， 
i、 反 函数 法 
此 法 将 入 计 {Cz} 的 问题 化 为 加 办 人 让。 我 们 引进 新 安县 
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1, MY = 
了 人 当 六 冯 
则 
m (xj=P (Y=ilX=-7r -EFX=x). 
对 给 定 的 权 范 数 
LL 》 =: Wy C Xs X，， "9 X,), 7 一 1， 2, "Ns 
定义 Cx) 的 估计 为 


CE Sh 《6.107 > 
pe 
然后 损 (6:101) 确定 9g; 。 出 此 竺 造 方法 可 知 ， 每 一 个 规则 g? 出 
权 丙 数 {Yi} 所 完全 确定 ， 下 面 是 这 一 方 浅 的 基本 性质 。 


定 亚 6.15 不 论 对 什么 样 的 权 国 数 ， 由 上 述 方法 构造 的 规则 : 
Ga (XT) 一 9r(X3 Vn)， 都 有 有 
OCgi, Ks Hn) —r* (Cx) 
S25 Cr) 一 外 (<) 1， (6.108) 
其 中 
yn Gis Xs Lr) =p 9 CXFEYIY= ,Zn), (0620) 
证 明 《6:108 ) 的 碟 边 不 等 式 窑 易 ， 民 当 固 定 Zr 后 ， 
9 《NX 0n) 是 关于 恋 元 的 判别 亡 数 ， 村 给 定 正二 X 时 的 后 验 
错 判 丢 平 即 为 75.《R，X，2Zn)， 当 然 不 能 小 王 给 定 对 二 时 的 
Bayes 判别 g* 的 后 验 错 判 概率 。 为 证 右边 本 等 式 ， 注 意 由 CX， 
六 与 zo 独立 及 g* 的 构造 ， 有 
yp《 Gr Xs Dn) =l Mos zn) (Xs 
开 由 《6.106 ) 式 缴 I 
Tn Gi, Xs Ln —r*(x) 
一 mawl CH) Wh garzn) (XX). 
下 面 我们 注意 一 个 初等 不 等 式 : 设 CpG 及 起 ，…, by 好 
287 个 常数 ，8H a ie Li Tx 2 吓 
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LA les~—bs]. C6:110 》 
.在 此 不 等 式 中 令 4 一 让 《xX》， 二 V4《**) ， 注 意 到 
Hs, gnczzn)y 《XY = max HC xX), x 
于 是 由 《6:110 ) 从 到 
rngny XA, Ln) —r* Cx) = lmax W(X) ~ gnc zny (Xt)| 


< mx) | (6.111? 
.此 即 右 端 不 等 式 成 立 ， 定 理 证 毕 。 
出 此 矩 理 可 得 下 述 推论 . 
推论 ” 若 { 了 是 矩 相合 ， 则 
‘Tm RCg =A*. 
证 明 外 矩 相合 性 及 Ds 的 构造 《6.107 ) 知 
lim ElmCX 2》C—7 信 ) ij 一 0， i=1, ”9 II， 
硒 而 由 (6.111 ) 知 
tim Elrm (gt; XK, ZL ) ~r* CX) |=0, 
但 由 此 即 得 
lm 如 { ga 2 一 = lim Er, ( Gn; 及 ， Zn ) 
~LEr* (XX) =R*, 
此 推论 表明 ， 由 竹 相 合 权 函数 得 造 的 判别 规则 有 渐 近 Bayes 性 。 
2， 密度 估 计 法 
咒 法 假定 当 给 定 Y=1 时 多 有 条 件 需 记 fx)s ty 2 
， 末 ， 由 Bayes 公 让 可 知 给 定 了 二 4 时， 工 有 后 验 分 
n(x)AP(Y=iAX=r) 
=pfilx 7 pifs (Xx) ,i=l,',NM, (6.112) 
为 简单 计 ， 考 虑 了 ==2 的 傅 形 ， 令 2 
DX)=P f(x) pfs (rk), (6:113) 
a 2906». 


此 时 Bayes 规则 9” 可 展 为 
3 D(x) >0s 
He ee (6,114 > 
如 能 基本 ;全 计 DCxX)， 记 任 一 这 种 估计 为 
Ds Cx) OD, CX: Zr 
再 仿照 (6'114 ) 定义 判别 规则 ， 
1， 当 站 。( YY ) >0; 

g(x) 一 人 er (6.115 ) 
显然 有 一 二 的 估计 Dn * )， 就 有 一 个 上 述 的 判别 规则 
9 ， 央 而 9 由 D, (x) 所 完全 确定 。Bayes 规则 g* 的 Bayes 
风险 为 

KkK*—~P(g(X)AY) 

=PCY=1, D(X)<0) +P(Y=2, D(X )>0) 
=p.P(D(X) <OYF=1) +PP (DX SOY =2 ) 


= 加 ficx) drtp) fa CX dx (6.116 》 


=p-| DO) dx ( 6°117) 


其 中 

H={% :D(xX) <OF={ XP fx) px } (6°118) 
而 规则 93 在 固定 Z， 时 的 后 验 错 判 概率 为 

LSC gs, Za )—P( gt (KX) EYIZ,) 


=p| f(x dx 和 | sf) dx C0.119) 
一 记 一 | ,sD Cx dr, 《6.120 》 

其 中 
一 {YX :Dn (x) <0}. 《6.121 > 


由 《6:116) 及 (6:119) 式 ， 即 有 
R: =|mint pf Cx), pifs (x) dx 
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-| +| smin Cp fi x), pfsl x))dx 
Hn Hn 


<pf, fl xs) dz+ps| 7 (和 JCY 
一 也 (C 6:122 ) 
上 式 表 了 明 ， 不 论 估 计 D(x) 是 怎样 得 到 的 ， 由 (6'115 ) 所 兢 
定 的 规则 g+， 其 后 验 错 判 概率 总 是 不 低 于 素 * ,这 是 与 Bayes 风 
险 的 含义 一 致 的 。 而 且 我 们 还 有 
0<L— AR* 
=|Pex) Cg CX) —ITu (Xdr. (6.123) 


规则 gs 有 如 下 的 大 榜 本 性 质 . 
定理 6.16 不 论 D,《 x ) 是 用 什么 方法 得 到 的 估计 如 果 当 


>00 
{CDs) -Dos)ydx 了 0( 或 as。)， 《6'124 )》 
:后 此 


L»_* ,Rr* (a.s.,). (6.125 ) 
证 明 ”记忆 的 边缘 密度 为 f(x*)， 则 
fF = CX +p Cr) 
对 任 一 d 维 Borel 集 4， 用 14| 表 示 4 的 体积 。 对 任 给 >>0， 
芭 4 维 有 界 Borel 集 B 充 分 大 ， 使 得 
{fC x) dx>1~ /2. ¢ 6:126 ) 
因为 
D, (x) 0 (XY 一 0 
ly Cx) —Tr x) < 
D.C%) < Cx) 一 ! 
> lyel%) 一 Za (人 元 ) 之 0 


救 而 
-Dai x) cla (x) -1 (4)) 20, 


4 298 


于 是 由 《6.123 ) 即 知 
OL — Rr* 


< 人 CX) ~ D(x Tg Cx) — Ty (Xadx 


+ lg DOCX) Clge CX)— 1 (x) ) dx 
会 J + /ns ( 6.127) 
Wi lJ < ID) -Da Cx) lds 
<[| ipex) -Dx) Pax] VIBT, 
又 由 
al 二 | .iD x) lads 


<| Fx) dr<e/2, 
Bs 


0<L,.—R* 
<[|， ID, Cxy 一 五 5 区 | dx| VTBT+e/2. 
由 假设 条 件 (6.124)， 先 令 2>=， 再 让 es 一 0 即 得 证 (6 ,125)， 
定理 证 毕 。 
使 用 定理 6.16， 需 验证 条 件 ( 6.124)， 这 取 次 于 忆 。(Cxzy》 的 
辣 构 及 中 神 型 的 条 件 。 
现 讨 论 DCX) 的 佑 计 ， 一 种 自然 的 方法 是 基于 和 分 别 估 


计 饼 、 血 及 矿 、 疡 。 沁 有 一 "fi:1<isa， Zi=1j 用 全- 个 


计 轴 ， 避 ~ 各 估计 姻 ， 再 令 天 为 核 函 数 ， 选 取 窗 宽 加 >0。 记 


n 
{HN 了 ,二 2}， 则 可 分 别 
定义 1、f: 的 核 估计 为 
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0 
汪汪 一 一 a (EF 
> K ( 元 二 ) 


然后 依 刀 (2 ) 的 构 迁 :定义 石和 ) 的 信 计 为 


万 《xx 》 3 六 2 K 全 


一 二- 3 一 站， 
nn 【天 一 加 RE in hn 
和 #4 XN 
一 | K!{ 一 二 
nehs \ 名 疡 ， ) 
AS 一 兴 ， .1928 
,之 下 hn 省 ， 和 


对 此 Da (xz)， 我 们 在 
定理 6:17 设 f1，、f; 一 致 连续 ， 而 hr 满足 
hr>0, N20 当 H>%0. 
ni | 

1[， (x)—D(CX; ] ex 了 当 有 之 20， 

因而 
了 了 当 74 > co 

其 证 盟 方 法 类 似 于 引 理 6"3 及 定理 6.2， 这 下 从 略 。 

车 对 Dx》 变形 还 可 以 得 到 别 的 信 计 方法 。 位 其 思想 都 基 
分别 用 密度 估计 方法 估计 笨 作 和 窜 度 或 边际 罕 度 ， 朋 频率 估计 先 蛤 
概率 ， 而 且 在 适当 的 条 任 下 ， 也 可 以 证 明 类 似 于 定理 6:17 的 结 
某 ， 改 在 此 不 作 一 一 介绍 ,下 面 举 一 个 实例 . 

例 6.4( 例 6.3 续 ) 地质 数据 是 一 个 三 维 变量 革 =(X 和 > 
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ma 


大 2， 克 2 》。， 其 中 到 习 是 切 向 运动 指标 经 过 离散 处 理 后 只 取 
i、2、3 三 个 值 ， XX 是 0 只 取 0.1 二 个 
值 ， 而 瑟 人 是 表征 有 无 陡 带 的 指标 ， 也 是 0-1 变量 ， 其 样本 空间 
是 RR? 中 一 个 有 限 子 集 { 只 含 12 个 点 > 设 了 蚌 类 谈 量 ,Y ==0 表 
示 无 油 ， 而 了 天 1 表示 有 油 ， 因而 M=2, 记 轧 =P(Y = 人)， 
了 一 0，1， fo(xX)=P(AXA=x|Y=0), f(x)=P X=x]Y 
=1), 而 

DOr =p f(r — Dfo lr), 《6'129) 
此 时 Bayes 规则 为 

当 D(xX) 之 0， 判 x 为 有 油 ， 

当 DCX) < 之 0， 判 x 为 无 油 . 
今 采用 邻近 已 开 钻 地 区 的 资料 ， 得 到 7 二 63 的 训练 样本 。 注 意 到 
Pof ox) =Pe 人 =x， Y =0), Pf x) =P(XR=xX 9 Y=1), 
因而 可 直接 用 频 府 估计 娄 率 P(XR=x ,了 0) 及 P(X=x， 
了 二 1)， 而 无 须 分 别 估计 po、P、o、 有 i。 记 如 此 得 到 的 D(x ) 的 
估计 为 D,《 x)， 其 判别 规则 为 

当 D,《X) 之 0， 判 x 为 有 油 ， 

当 DD,《%) 之 0， 判 x 为 无 油 。 
国 样 本 空间 只 售 12 个 点 ，M = 2， 可 对 每 个 YY 计算 D,《*)， 其 
计算 程序 并 不 复杂 。 然 后 对 12 种 地 质 类 型 依 有 油 ， 无 油 分 类， 

一 张 分 类 表 。 对 得 一 新 间 位 ， 依 测 得 的 地 质数 据 * ， 从 分 类 
下 中 可 找到 其 类 别 。 依 强大 数 律 ， 对 每 一 给 定 Xx， 有 
Ds (x)— D(X), as. HS, 
| NCH)I— > CX dS. NH, 7 一 0，1， 


fnCx) -> 站 【4X)，a.S。 当 1-~> co。 
其 中 C(x) =P(Y=ilA=x), 1=0, 1, f(x)=pofo (x) 
+pf CX)， 而 V4， 分别 是 其 频率 估计 。 易 知 


0 Re2 BD Bl Ct) (KIL) (6:130) 
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因而 (由 样 太 空间 公 有限 ) 工 ,一 > 玉 *，a.s.， 当 Hz->co， 依 我 
们 的 数据 ， 对 Los 进行 估计 .算得 Los 近似 为 0.115。 相 对 于 63 
个 训练 样 本 六 说 ， 这 个 值 避 比 较 理 杞 。 再 使 用 已 得 的 分 类 表 ， 上 用 
邻近 地 区 已 得 数据 加 以 印证 ， 其 错 尖 的 频率 大 约 为 0.201。 之 所 
以 出 更 这 个 情况 ，-- 老 频率 本 身 司 概率 总 有 差异 ; 二 是 在 计算 
中 ， 对 某 些 Yx，Dnu 《x ) 的 绝对 值 很 接近 0 , 很 礁 判定 其 所 属 类 。 


因 调 有 较 大 的 误差 ,但 好 使 这 样 ， 同 不 使 用 此 法 而 单 凭 经 验 公式 
相 比 有 较 大 的 改善 . 


、 近 邻 判 别 

近 部 判 列 法 最 旺 是 出 Fix 和 Hodsges 在 1951-1952 年 引进 
的 。 其 基本 出 发 点 是 ， 对 于 给 定 的 半 = x 及 洲 练 样本 Z。， 在 判 
别 基 所属 类 时 ， 只 有 最 接近 x 的 敢 些 样本 才 起 作用 。 我 们 可 将 其 
方法 要 骨 表 述 如 下 在 RR 中 引进 距离 P(X+，y)， 对 给 定 的 四 二 
大 ， 按 照 {P 《XX， 奖 ;》 ,2 一 1，…，N.}》 的 上 升 次 序 将 指标 样本 : 
区 1!，…， 丸 4 重新 排 为 于 ms， …， 天 tm， 与 之 匹配 的 {了 } 记 为 
了 Ri ey 了 pr. 青 定 下 一 个 自然 数 和 (1kh<n 》 ， 在 YYp，…y 
了 mx 中 用 “多 数 选 举 ” 永 则 决定 x 所 属 的 类 . 即 当 六 p,，-…Y ns 中 
等 于 t 的 个 数 最 多 ， 判 x 为 i 类 ,我 们 将 之 确切 地 表示 为 下 述 的 
定义 。 | 

定义 6-10 记 人 =*({f:Y p=i, 7 一 1 hk}), i=1, 
MM 定义 判别 规则 g(x) 会 g(x; 2。) 为 

ga“(%) 二 tf， 车 1 是,…，ly 中 唯一 最 天 若 。 藻 同时 有 车 
于 个 达到 最 大 ， 例 如 各 ，…， 大 ， 则 依 等 流 率 在 ,2 中 随机 
次 定 一 个 为 97(Cx) . 称 如 此 定义 的 gi” 为 下 -近邻 判别 规则 
(k-N.N.)。 当 k==1 时 则 简称 近邻 规则 (N.N.) , 且 记 gi? 为 
9v， 

依 此 定义 ， 近 分 规则 是 

当 了 py 二 t 时 ， 判 x 为 i 类 . C6.131» 
在 定义 6.10 中 ,要 求 依 {pC > 和 ) } 的 上 升 次 序 重活 排序 。 
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在 出 现 “ 结 2 的 时 候 ， 我 们 仍 采 月 “ 足 标 靠 前 ”的 原则 。、 下 面 就 
二 1 及- 一般 的 这 两 种 情形 分 别 讨论 有 关 概 念 及 性 质 。 

i. N.N. 法 沿用 前 面 的 记号 ， 并 记 攻 ,，"'、 沪 。, 中 与 下 
最 接近 潮 为 车、 与 之 匹配 的 了 记 为 Ys。。 改 记 N.N. 错 判 概 素 为 


R, 人 POY, FY). C6:132) 
我 们 有 如 下 性 质 、 
定理 6.18 设 以 = 二 2，1, 《xX)》 连续 ,7 二 1，2， 则 有 
R*<R<2R* (1—R*), 《6.133 ) 
南 中 
R= lim BR,. {6:134) 


在 证 明定 理 之 前 ， 先 给 出 一 个 注解 。 因 
P(g CRYy=YIX=x) —max (n(x), W(X))> 于， 
有 R*=-EPcig* (CX) YIX)< 地， 于 是 
2R* (1— R*) >2R" (1 二) =R:, 
因此 (6:133 》 式 是 合理 的 。 
证 明和 先 证 朋 一 个 往 后 要 多 次 用 到 的 事实 ， 即 除去 一 个 瓦 零 
测 集 外 的 xX， 有 
KX {XTX) > XX， a.S， GN>o0, 《6-135 》 
其 中 下 为 六 的 边缘 分 布 ， 而 Xs《〈x ) 为 当 成 一 X 时 怀 的 相应 
标记 。 : 
事实 上 ， 营 记 C 为 的 支撑 集 , 则 玉 (C)=1., 任 取 x EC， 
对 任 给 的 2 汪 >0 有 
PiUp(X, Xs (4)) 65) =P (P(x, KL.) 
> p(X, Xs) 之 8) 
=[P (P(X, XX) eI"=Ll~— PCp lx, KX) <el 
色 xEC, 有 有 PtPp(Cx，X)<e) >0， 从 而 
O07 人 1 PlPp (xX XK) <E)<1, 
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于 是 POD XA (XxX))> d= 有 ro 由 Borel- 


Cantelli 引 理 即 得 证 (6.135 ) 式 . 
现 回 到 定理 的 证 明 。 吻 知 
rs CX XISOPOY, FYIX= XxX, X=xX/) 
= CXY NC Xn) TH CXY HN CNX 》y 
由 加 (x) 的 连续 性 及 C6'135) 可 知 :， 对 a.e， x[LFJ， 
lim rn CNN) 一 21 (CX) HCXY a.8. 《 6.136» 


但 由 (xy 二 min (7, (C(x), h(x))<， 可 得 


[| 
Sor* (XY (6.137 > 
再 由 《6.136 》 使 用 控制 收敛 定理 得 到 
RE lim R, ~ Im Ers CX, XY =EL2Y, (CXF)T, 


了 一 oo 


结 台 (6:137 ) 式 ， 即 有 
FR:*=Er* (FX) <R=ECn (X)n,(X)) 
~=E[2r* (CX) (1 一 r* (与 ) ) 1 
{Er* CX) —[Er: Cx) J} 
—2R* (1—R*) 
定理 证 比 ， 

不 等 式 《6:'133) 提供 了 这 样 一 个 有 趣事 实 ， 当 有 了 一 个 “无 
穷 ?” 样本 时 ， 本 应 采用 Bayes 规则 ， 相 应 的 销 判 概 诸 为 RR*; 如 
仍 坚 持 用 N.N、 法 ， 则 错 判 概率 至 多 为 2R* (1 一 R*》 <<2R*. 
en 即使 丰 极 大 数目 的 样本 ， 但 与 式 最 接近 的 
那 一 个 , 其 信息 量 占 到 全 样本 的 一 半 。 这 一 解释 为 使 用 N.N. 原 
ee a a 《6.133 7 可知，”R* 一 0， 当 


且 仅 当 KK=0， 天 一 壮 当 县 仅 当 太 ~ 。 这 就 是 说 ， 在 完全 确定 
关 二 厅 出 二 放大 和 让 通 宙 用 下。 从 大 料 本 角度 有 N-N. 判别 
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与 Bayes 判别 是 相同 的 。 
上 述 结 菏 不 难 推广 到 一 般 的 MT 。 即 在 关于 {? 《x 》} 连续 性 
的 假定 下 ， 有 


R'<R<R (9-0 


R') 《6-138 > 


例 6.5 设 样本 空间 为 开 区 间 (0, 1),，M =2， 办 == 如 一 地 


2(1 一 Y》 当 0 之 xX 之 1 

| 人 
0 » 其 它 的 工 ， 
2X， 对 0 之 XL1s 

fs (x) 一 | 

人 0 ， 其 它 的 x， 


经 简单 计算 可 得 尽 一 村 ， 尽 * 一 下。 显然 满足 定理 9.18 的 不 等 


式 (6.133) . 
关于 N.N， 法 的 另 一 性 岳 是 ， 
定理 6.19 设 M=2， (xy) 连 续 ? 一 1，2。 则 
.SP(Y,#Y|Z,) _£ ,R, 当 N%~>o0， 《6-139》 
证 明 从 略 ， 
2. R-N.N. 法 为 使 级 述 简便 起 见 , 假 设 村 =2. 本 段 讨论 - 
NN,. 规则 的 一 些 性 质 .为 此 先 证 明 一 个 往 后 要 用 至 的 预备 事 灾 。 
引 理 8.5 设 事 性 Al, i Ax 相互 独立 ， P=P(A)i=1, 
"ey 克 对 茶 个 PE (0，1)，1 志 1k， 记 


b Ch; p, i) =(F)p 1-p) 《6.140 > 
Ck pi, :**， Pr» 2) =P( 4d,, "sy A 拾 好 出现 1 个 》， 
则 对 上 11，2，…， 上 大 } 的 任 一 子 集 4 {6:141) 


| 之 C 《 kj;pi, “yp Dxs 2) 之 2 Ck;p, 2)| 
x 
< BIp-pl- (6:14: ) 


证 明 设 6， ry En 独立 同 (0， 1》 上 均 名 分 布 。 令 
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也 一 了 < = ps i=1, “ys k 
则 对 任 一 1 所 7 < 


A =i)=C Chsprs ,pr, 7 ， 


P(B mi) = hp, 1). 


4=1 
因而 
下 
《6.142 ) 式 的 左 端 =| P(2 > ?7, EA)~-P (> “eA)| 
<P(U {7 大 7 } )< BP nm 2 iP:~ pl, 


引 理 证 毕 。 
重新 记 人 1 一 Xn，… 2X = 人 Xp, Yi =Y pi “ss 一 和 py : 
记 

LEELA (和 大》 站 有一， 和 

:一 I，…-， 罗 )， 
=1{Y,=1}, i=1,。 2; .…, hk. 

则 在 给 定 于 二 x ， 关 一， ?二 1，-… 户 时 ， 妇 ，…，44 条 件 
独立 ， 且 已 ( 4 一 如 7 一 1 kk) = (x ) ,il 
依 9 的 定义 ， 有 

Plg™ (x) =1lX=x, ee 2 


= 到 (45 So 4 至 少 出 现 名 十 1 个 |X;=%,j 一 工 ， + 皮 ) 
+ P(A,; “9 殷 恰好 出 现 半 个 | 时， 一 Xi 9 7 一 1 i 
二 之 CR 人 (CCXI) ss 1 CX )s 1) 

be 


+ 地 C(RIT CH) 加 《2 )， 3 


此 处 及 下 面 都 约定 ， 当 之 非 整数 时 
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je hE 
b (ks p, 2 一 0 ， c (ks pi, 办 ， &) 0。 
同 理 
Plg (x) 二 2| 久 一 x， 六! 二 x z 一 1 ， 和 k) 


-= > CC Chsn, C Xi ), ee NCEA )s 2) 
0<f< 去 


2 
因而 


fal XXis x 


十 二 CR 人 “ 7 ， Cx: )， 2) 


=Pg (rx) =1, Yo2|X 
一 Xi 一 Xi t=]，…, 率 ) 
+Pig (x%) =2, Y=1i|X=x, FX'=x’, 71, 
= (XxX) P(g (xr) 二 1| 革 =x， 人 =X J=1，…k) 
TY (CX) Pig 7 (X=2|X -=x, KI=xts jl, hy 
= 7 (x) 之， CR 和) CK ) ,1) 
< 


+ Cx) > CC Ch Cxi) ,1 n(xi), 2) 
0<t< 玛 


» k) 


tC Ch Cx) ,~ 2 (6-143 ) 
设 随机 变量 到 服从 二 项 分 布 BC( 名 Cx))， 定 义 


本 有 
和 2) Snr) PW<E) tn) P( 卫 > 二 ) 
和 
十 去 P《 奢 一 到 ) 
= (XX) ot C Rs, Cx), 2) 
TI Cx) DB CRM CK), i) 


3 
= hak 
z (人 


+3b (ky NC) ， 各). 


《6.144》 
使 用 引 理 6.5 即 有 
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x 
jy CX Xi 1<3 3 19 C0) — CX) | 


《6.145 ) 
车 假定 WC%) 连续 ， 则 7?, (x 》 二 1 一 (XX) 亦 然 , 仿 定 再 6.18 
中 《6.135 ) 式 的 证 法 可 知 ， 对 几乎 所 有 的 x 及 每 一 1 所 1 志 ， 有 
Xi CX > NX， 3a.S。 当 如一 co， 
其 中 六 i(X) 为 当 六 二 xX 时 Xi 的 标记 。 从 而 由 (6-145) 可 得， 
对 几乎 铁 有 的 XX 
rnCXsRi Ai ) 一 > 加 (Ya.S， 当 了 ->co 《6146 7 
再 使 用 控制 收敛 定理 即 得 下 述 的 定理 . 
定理 6:20 设 及 二 2，#, (xXx) 连续 ， 则 
lim RA jim E Cr (XK1, * Ke)) =Ete(X). 


《6:147) 
为 明 隋 《6.147 ) 式 的 意义 ， 让 我 们 进一步 考察 f, (X) 。 
记 FCX) =min (CN Cx), 7,(x)), 


b Ck, p, i) (pip), 
B Ck, p, i) 一 加 bh p, 1)， 


Bi=B( An0xz)， 生 )+ 二 bf bntz)， 生 ) 


0 + 村 5(AICz)， 夺 )， 


Od#<k/ 
C6:.148) 
则 
tCx) = CCX) Bit C—OX)Y C1—B,) 
=1~-H (Cx) — BC1—2 (7x)). 《6.149 》 
我 们 可 以 证 明 
(xX) = (xX) Pl (I) 一 如 (人 (X) 之 《6150 ) 
而 且 


308 « 


lim tC#) =r* (4). 《6.151 》 


事实 上 ， 由 Bi 的 定义 不 蕉 断定 
B=B,<B,=B,<.", 《6.152 》 


lim Bs~1 Hx) < 地 1 一 1/2 当 N(x) rl/2. (6.153) 


扫 Cx) 所 1/f2， 由 (6:149) 知 t(xX) 7(xX) .再 由 +(x) 
一 #《%) 即 得 (6.151).(6.1507 式 则 易 更 56.149 》 与 《6.352 ) 
推出 。 

再 用 控制 收 合 定理 得 到 

lim Et. (KY) =Er"( XK) =R*., 《6.154 》 


由 此 可 对 定理 6.20 的 结论 作 如 下 解释 ，k- N.N. 规则 的 错 判 概 
率 当 样本 容量 无 限 增 大 时 有 一 个 不 低 于 R* 的 同和 有 关 的 极限 ， 
而 此 极限 随 著 卢 增 大 而 任意 接近 Bayes 风险 R*"。 事 实 上 ， 当 此 
无 限 增 大 时 已 无 须 依 对 x 的 距离 重新 排序 ， 淹 别 实际 上 直接 基于 
广 ;,，-…，。， 攻 。 作 出， 再 随 着 4 无 限 增 大 其 功效 当然 应 与 Bayes 判 
别 相同 。 

另 一 个 有 实际 意义 的 问题 是 ， 虽 然 五 和 《天 ) 关 尺 ,， 但 对 而 
定 的 下 ， 对 所 有 (下 ， 了 ) 的 可 能 分 布 ， 比 值 互生 (大 ) /7 R* 的 上 
办 是 多 少 ? 有 了 这 个 上 界 ,在 某 种 意义 上 可 以 定量 地 考察 &-N.N. 
法 的 效用 ， 而 且 显 然 这 个 界 同 有 有关， 因而 这 个 界 对 二 的 选择 世 
有 所 帮助 。 记 

了 x 一 SUp (CEt.(X)) /R’, 
{ 演 ， 了 了 了) 的 分布 
已 知 有 下 述 结果 ， 
| 2 
当 上 二 1，2 时 ， Te <1+Y 2, 


当 >3 时 ， D <1+V1， 


当 >5 时 且 为 奇数 时 ，Ts<<1+ Ye (: + 


其 中 
as0,.3399, Bx0.9749. 

五 、N.N. 法 在 预测 中 的 应 用 

在 86.3 的 四 中 已 提出 韭 参数 预测 问题 ， 我 位 仍 灌 用 那里 记 便 
用 的 记号 。 设 因 变 量 立 为 一 维 的 , 自 变 量 天 为 辽 维 的 ，Z. 一 {( 三 ， 
YY )》 ，…，《 天 。。) 为 来 月 《三 ,了 ) 的 独立 同 分 布 样本 ， 工 
为 给 定 的 损失 函数 ， 用 8 (x ) 表示 预测 规则 8* C(x) 为 Bayes 
预测 ， 对 任 给 预测 3， 若 记 玉 为 区 的 边缘 分 布 函 数 ，F( |x》 
为 给 定 成 一 关 时 ， 工 的 条 件 分 布 函数 ， 则 有 

R88) =ELE (L(Y, 8(X))IR) 


= 人 Ze 8 Cr)F Cayl rlar (x), 
证 
+ (xX) 人 rtr (8;x) =ECL(Y, 8(X))|X=X) 
-| cy, 3 CXF Cdylx), 


称 7 (a1%) 二 + (xX) 为 给 定 基 = xX 时 8 的 后 验 预 湖 风 险 ， 
的 Bayes 预测 8* 的 后 验 风 险 记 为 +* (x)。 吻 知 Bayes rs 
使 后 验 风 险 达 到 最 小 的 预测 规则 。 现 《六 ，Y ) 的 分 布 术 知 ， 因 . 
而 无 法 使 用 后 验 风 险 达 到 极 小 的 办 法 求 得 一 个 预测 。 本 有 段 采 用 
N.N. 法 构造 基于 Z。 的 预测 ， 务 求 其 风险 《或 后 验 风险 》 尽 可 
能 地 接近 R*C 或 1* 《xX))。 仍 用 Xs 记 站 ,,… ,六 ,中 与 了 最 接近 
者 ,而 与 之 匹配 的 记 为 了, , 当 及 = x 时 , 记 相 应 的 Ys 为 (x)， 
定义 最 近邻 预测 为 ， 

当 义 二 XxX 时 ， 用 了 《x) 预测 了 ， 
记 

ra Cx, Ks) =ECL CY, Ys) [X=x, Z,] 

=E[LL CY, Fs » | 二 一 YY， 全 了， 《6*155 》 

ra(X) =—=ELL(Y, Y.) (X=7x], (6°156 ) 
它们 分 别 是 N.N. 预测 在 给 定 卫 = %，X， 及 给 定 = 《时 的 启 
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验 风险 。 再 记 
REL(Y, 7 ) ， 《6.157 ) 
天 。 是 N.N， 预测 的 《无 条 件 ) 风险 ， 用 以 刻 划 N.N. 预测 的 好 
坏 程 度 。 而 (xzx)》 则 玫 示 在 给 定 预测 点 天 一 4， 反复 使 用 人 .N. 
预测 其 条 件 平 均 损失 。 至 于 7。( Xx， 芒 % ) 可 作 相 同 的 解释 . 因此 
在 实际 使 用 时 ，7, (xX) 及 7.(X，X。,) 更 适合 操作 人 员 的 要 求 。 
但 和 在 理论 分 析 时 要 用 到 。 显 然 上 述 三 个 量 有 以 下 关系 
R=Ers CX), 1 CX) =Er, (Cx, Ks) (6°158) 
由 于 平方 损失 L(y，Q) = 二 《yy 一 a) 是 常用 且 方 便 的 一 种 损失 
负数 ， 我 们 限定 在 平方 涡 失 下 讨论 N. N. 预测 的 性 质 。 已 知 在 
平方 损失 下 其 Bayes 预测 为 给 定 各 时 Y 的 条 件 期 望 。 若 假定 
万 《了 ?<0， 则 8* 的 后 验 风 险 为 给 定 人 时 了 的 条 件 方差 ， 即 
rr* (xX) 一 Var( 了 了 | 有 一 和 》 
一 天 《 了 ?| 天 一 和 》 一 [ 瑟 ( 了 | 和 一 4 )]j2， 《6.159 ) 
记 
HK)=E CY|X=%), h(x)—~ECY*|X= 2). (6.160) 
我 们 有 下 述 的 
定理 6.21 知 避 (YY)》 和 连续， 7 一 1，2。 则 对 几乎 每 一 2， 有 
lim r(x Xo) 一 27*《Y) 。 as 《6,161) 
证 明 易 知 
rn CX Kn) 一 有 《2) 一 2 (CX) HC xs) +H, CX, ) 
因 4, 一 >4，a.s. 对 几乎 每 一 4 成立 ， 以 及 上 ,Ks 连续 , 即 有 对 
几乎 每 一 2 
lim +» C %, Xs) 一 2[k (xX) 一 友人 (4 )]，a.s， 
再 由 ?* (x) 的 表达 式 (6.159 ) 即 得 证 (6.161)， 定 理 证 毕 ， 
.注意 到 上 面 的 定理 暗含 着 假定 (了)’<<oo, 不 然 的 话 
才 "*《) 无 意义 ,此 时 可 推出 《xX) 一 Br 《XxX， 芝 。) 存在 .但 由 
《< 6*161 ) 还 不 能 得 出 lim r,(%》 的 存在 性 。 
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定理 6-22 设 碧 (7 ) :co bh,《x) 连续 ( 宦 PpP 下 ). 若 
距离 P 使 得 Ep:《 匀 ，0 ) < 之 co。， 且 存在 绝对 常数 4 .已 高 
I Cx) —hH (Cy) EAP (x 7) 
I Cx -oy) |SBPp: (x ») 
其 中 0: C(x) 二 Var (Y 了 了 |X:-x)， 


则 有 

limr, (XX)—=27* (XX), a.s., C6'162 小 
而 且 

lim R,= 2R*. 《6:163} 


证 明 ”由 假设 可 知 
ra CX RK) Ox) +O CXR) + CUT AR CX YY 
=—20: (xX) CO KX, ) —0 (YX)) 
+ (R(X 一 由) )! 
20(X) + Bp (Cx, X% ) TAP CX, KX, ) 
一 202(X) + (A+B) p(X, X») 
但 PCr Xs) SPCX, XI) S22p: CX, 0) +2p: CR, 0), 
因而 由 《6.161 ) 式 ， 依 控制 收敛 定理 即 有 
lim yxX》 一 lnm Er, Cx Xs )=27* (XxX) 对 ae,z， 
i 《6.164》 
此 即 《6.162 ) 式 成 立 。 又 对 每 一 xX*， 有 
rn(X) =En (xX, Xn ) <20° (xX) 
t+t2CA:+B)IPp: (C(x, 0) +EP: (CX, 0)1], 
及 Ea (X) SECY)+E(E (YIX)) <2BE (Y) :<0, 
Ep: CX, 站 
由 《6:164 ) 再 次 使 用 控制 收敛 定理 得 到 《6.163 ) 式 , 定 理 证 毕 。 
关于 《6.163 ) 的 解释 ， 定 理 6.18 后 面 的 注解 同样 可 适用 于 
些 ， 只 须 将 那里 的 “判别 ? 换 成 这 里 的 “预测 ”就 行 了 。 
下 面 的 例子 说 阴极 限 lim 并 可 以 不 存在 。 
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向 6:6 设 成 有 Cauchy 分 布 ， 给 定 下 二 zw ，YY 的 条 件 分 布 
声 正 态 尺 《 4，1)， 此 时 

PCXA) = Tm, HC(xX) =1+r, 0 (xX) 一 1 
潮 ElX|=x， 放 一 般 说 米 定 健 6.22 中 的 条 件 EP:( 和 ,0)< 之 2% 
不 成 立 。 易 知 

rs (XX ) =2+ (xX— Xn) 2 《6.165 ) 

因而 

R= Er, (X,X,) =2+E(X—X,)’. 《6.166 ) 
.对 在 给 a>0, 汝 4 >a 时 ， 

Ps 一 XealX=a )>POK<0 me<O 一 ( 工 ) 


名 


于 是 
P(X—X,i>a)=EP(X-X|>g|X) 


之 | 1xalt (l= XX, | 之 >alX= a)dF (x) 


之 (去 ) P(X>a), 


其 中 下 为 Cauchy 分 布 的 分 布 注 数 . 由 上 述 不 等 式 经 简单 计算 
可 知 : 存在 一 仅 同 n 有 关 ( 与 4 无 关 ) 的 常数 c 汪 0， 使 得 当 & 
充分 大 时 有 
P(X -Xs|>4 )>c/a, 
.因而 当 &4 充分 大 时 ， 有 有 
EX—X,) >aP(lX-X,|>a)>arc. 
于 是 六 二 2 二 (一 Xn4》 :二 十 so， 自然 无 从 谈 起 {RR } 的 极 
限 。 但 有 趣 的 是 ， 可 以 证 明 ， 
go【《X》 一 2 十 五 《ZX 一 下 2< oo， 对 所 有 闸 ， 
而 县 对 每 一 4， 有 


lim r(xX)=27* CX), 
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习 题 


6-1 设 往 CY) 是 刃 上 的 概率 密度 ， 若 了 在 玉 上 一致 连 续 几 
了 在 R 上 有 界 ， 且 lim / (Xx)=0. 

6-2 证 明 引 理 6'2， 

6-3 证 明 〈《6:17 )》 式 。 

6-4 设 天 (xz) 是正 态 入 (0，1) 密谋 ，f 为 正 态 和 N(48， 
0?) 密 度 。 六 1,…, 革 , 是 来 自 下 的 i 记 . 样本， 是 基于 XX，…'， 
失 。， 的 具 核 五 及 窗 宽 hh 的 局 估计 。 求 Efs C(x) 及 Var (fs(X))。 

6-5 随机 数 的 模拟 设 关 ,,，…, 六 。 iid.，XX! 有 未 知 密度 
了 了。 fn 是 基于 X,， Xs 县 核 及 及 窗 宽 加 的 核 估 计 ， 今 从 1， 
2，…， 扩 中 随机 搞 取 一 个 记 为 i; & 是 与 从 1 "ys 在， 独立 其 密 
度 K 的 随机 变量 ， 则 对 给 定 XX “9 Xs Y=—X,+jne 的 条 件 蜜 : 
度 为 f，: 

6-6 设 钙 ,，…, 久 ,是 来 自 杰 知 密度 的 ii 记 . 样本 , >>0 
是 给 定常 数 序 列 ， 满足 lim 名 一 0. 记 

NaCa, b) =* Ci:X EA, b), i=1, 2, ‘7 NR} 
定义 
fn CK) =Ny Cx— ho T+ hs) /21hns 

则 有 

(1) lim Ef (x)=/(X), EVA), 


《2) 车， lim 9 一 cce， 吕 当 一 =o 肝 
rr 


fax) Lf r), YEC( 丰 7) 。 
6-7 《 续 6 题 ) 设 f 在 R 上 一 臻 连续， 车 
lim 六 ,一 0， lim nn/ (logn) 一 =o， 


则 .7 
lim sup [fn (CX) —fF (tx) 1 一 0，a.S。 
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6-8 设 X,,…， X, ild,, 所 | 有 分 布 FF (并 不 假定 下 有 有 密 
趾 )，/s 是 基于 ,，,，…, XX。 具 核 太 及 窗 宽 hn 的 核 估计 。 套 假定 
五 在 下 上 有 界 变 差 ， 


lim hs=0, lim nhr/(longn ) 一 so 


划 / 
lim Sup | (xy) —Ef, CX) [=0, a.s,, 


hm 


6-9 在 上 题 的 假设 条 件 下 ， 若 
lim sup | fn C(x) 一 g《(%) | 一 0，a.3. 对 其 个 g， 


出 到 是 处 处 连续 的 。 

6-10 设 广 是 未 知 密度 了 的 核 估计 ，lim 名 一 0， 则 

lim Es( [lf x) f(x) idx) 一 0, 对 任何 了 ， 
又 车 [Ky) dy<o0， 则 当 lim wj 一- 时， 有 
lim [Var (六 Kx) dr=0, 对 任何 f. : 
6-11 设 太 为 一 维 分 布 函 数 ，pPE C0,1) . 令 - 
c=gp{t:F (t) <p}, d=int{t:F (1) >p} 
列 

(1) -~< d(C<+%) 

(2) 为 玉 的 上 分 位 数 当 且 仅 当 FER cl. 

6-12 求证 在 平方 损失 下 ，Bayes 预测 为 已 ( 了 jx) 在 绝 
对 值 损失 下 为 ( 汪 | x ) ( 即 条 件 中 位 数 )。 

6-13 设 天 是 有 界 的 具 紧 支 撑 的 概率 密度 ， 
{KX, YY; (X,, i CR, Ya) iid,, (x) =P(Y 
十 访 二 XY)，?= 二 1，…*，、A 朋 未知. 构造 《x ) 的 核 合计 为 

《xz) = 下 i )/ KE 二 )， jl MM, 


车 im 如 =0，Jim zh co， 财 对 任何 yz321 


lim BElim(X) 一 由 ( 瑟 10. 

6-14 设 了 了， ，…) 和 ,和 ， 导 ，…， 相 后 独立 ，{T 上 
是 由 天，…， 友 ns 所 确定 的 权 函 数 ， 且 诸 世 : 服 从 NG0，1) 分 
布 . 若 驴 Wu (XIV, -人 0, 当 4>o0, 册 加 到 5(X)- 二。0， 
当 和 并 ->co- 

6-15 设 朵 一 2， 恩 一 加 =-1/2， (2z) 

人 
开 是 N.N. 判别 的 错 判 概 率 ， 则 lim Kn=1/3. 

6-16 设 户 为 下 整数 ,0 之 p<1/2,t=1 一 pp 一 B, (1 一 2p)， 

B= BD blk;p, i) + bik:p, 所) 则 有 


Oct<k/ 
(1) 广 一 大 产 丰 一 如 (2) lim tp. 


6-17 设 【 芭 ， Y), (Xs Y.,)， "ys (op ¥,) id,， 
NCX) =P(Y=i|X=7), t=1, 2, mp M, FF 为 到 的 芬 布 
函数 ， 定 义 丸 《xzY)》 的 佰 计划 名 (x》 如 问题 13， 判 别 规 划 为 

当 如 《YY) 一 Da # 《YX 时， 蚤 为 了 类 
记 此 规则 为 gs Cx》，L 上 ,一 P(gn (XAYIX,), RN Baycec i 
则 的 绒 判 概率 (一 人 4 了 )，…， 《有 了) ,如 有 

于 

0<L, ~ R* < fim C x) Cr) IAF (x). 

6-18 设 XX!，…， Xe 为 下，…， 玉 ,中 与 革 最 接近 的 前 诺 
个 点 ， 相 应 的 六 记 为 了 i，…，Y%. 用 多。 一 十 > 7; 预测 六 ， 
为 平方 损失 .假定 Y~N Ch 0 ,XIY=y~N (y，02) . 求 。 

(1》 Bayes 预测 8* 及 风险 RR*， 
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(2》7a( 和 办 (人 一 ,= 
i=1,.…,h). 
6-19 设 已 ,天 天， ji 这,， 给 定 h>1 及 X= 
2，…，2x 如 上 题 所 示 。 则 对 几乎 所 有 s， 有 


max p(x, X,) p 0， 当 姑 ->co。 
edc 


6-20 在 例 6.6 中 证 明 ; lim rn CN) 一 274(X)。 


FT we 


第 二 章 

2-2 只 须 证 明 ， 若 严密 度 不 存在 ( 非 绝 对 连续 2)， 则 
六 ;的 密度 不 可 能 存在 .事实 上 , 若 下 非 绝 对 过 续 , 则 存在 Lebesgue 
零 测 集 4, 使 F(A 二 P(XEA4A) >0. 这 时 ,， P(XEd, 
一 1，…， 1 ) =F" (4) >0. 因此 P(X EA)>P(XEd, 
一 1，…，28)》>0， 这 表明 于 (之 分 布 非 绝 对 连续 。 

2-4 若 玉 在 茶点 4 有 了 跳跃 加 >0， 则 玖 (和 7) 取 开 《d) 为 
值 的 概率 守 思 >0. 从 而 五 《 广 ) 不 可 能 有 均匀 分 布 。 

2-5 根据 G 的 定义 ， 去 证 明 对 任何 x*E (0, 1 )， 有 G(U》 
XE>UCF (XY (FF 右 连 绪 )。 

2-6 Veys …p% a 同 分 布 通 过 直接 计算 U6 一 Uo-yw 的 
分 布 (1=2, """s 71, V nes) 单独 算 ) 即 可 证 实 ， 其 不 独立 可 以 从 
了 十 人 二 Ye 一 上 看 出 。 任 一 对 不 独立 则 从 其 和 <1 看 出 ， 因 
每 一 个 都 可 在 《0，1 ) 内 取 值 。 


如 果 把 《0，1 ) 折 成 一 半径 为 -的 圆周 , 则 由 对 称 性 考虑 ， 


形 个 点 分 割 成 的 2+1 个 圆 弧 位 置 完全 平等 ， 册 这 就 不 难 证 明 其 
司 分 布 性 。 


2-7 不 妨 设 & 一 4， 利 用 < 之 ,不 难 推出 i -及 tt。 
由 此 即 推出 避 《 从 ) 一 0. 直接 计算 也 以 设 # 一 0 为 方便 (Ar0 了 时 。 
以 站 -人民 六 4 印 可 。 

2-9(C) 为 证 五 《( 尺 ) ->so， 不 妨 设 天 无 上 界 。 这 意思 是 
说 P(A>c) >0 对 任何 实数 c. 取 &， 使 玉 Ca》>0. 给 定 
A>0. 则 p=P (X24A+0) >0. 
有 P(XwEa) =1-(l-F (a))" >1l, 当 h->o0. 
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又 P(Xn>2A+a) =1]— (1-p)"~>1, 当 久 二 0， 破 
已 (XGA 三 24+Q) 一 1， 当 7 一 co 
因此 当 % 充 分 大 时 ，P ( R 之 24) 之 P (Xa, 


Xeo> 24+2) > 十 ， 而 至 ( 忍 ) 之 24, 计 之 4 因 及 任意, 知 


五 ( 尽 ) >. 

(58) 为 证 如 (RR) -> Sup 基 一 inf 生 分别 证 五 (三 ) 全 > 
supX， 忆 《人 区 ,) ~>jinf 和 .以 前 者 为 例 ， 按 sup 兢 的 定义 ， 对 性 
给 上 >0， 仿 & 之 证 法 ， 不 难 证 得 忆 ( 六 之 sup 天 一 6 ) ->TI， 这 
一 事实 ， 结 合 五 有 界 及 天 人 < 生 sup 三 , 即 得 五 (三 ,>SUpX 

(C) 和 欲 证 瑟 5 瑟 。) 严 增 5 此 处 以 忍 , 记 天 to 一 下 )， 注 意 
ent) =max (Xn)s > ) > ny 由 此 知 E (CR, ) 随 # 非 
降 。 欲 证 其 严 增 ， 只 须 证 《站 ,141 之 及 my 》>0. 为 此 ， 利 用 湾 
非 退 化 ， 可 找到 4a, 使 P(X<a)>0, P(X>a)>0. 但 
PURn>Xn)) 六 有 (和 DG， Xmw<e) =P(Xr>a, 
Xp 4) 一 P'(X<a)P(X>a ) >0. 得 证 ， 

2-12 设 斥 有 两 个 不 同 的 对 称 中 心 ， 不 失 普 遍 性 设 其 一 为 
0， 另 一 为 4 和夫 0， 故 和 及 天 一 4 都 关于 0 对称， 于 是 有 
大 二 -万 XG 三 - (4 ) 二 -外 十 a .由 后 一 式 知 
龙 二 -X+2g ,此 与 第 一 式 结合， 得 -大 二 -和 +2C ,而 a 姑 0。 
这 不 可 能 《为 什么 ? ) 

2-13 考察 负 指 数 密度 e "1( 8 >0 ). 

2-14 前 半 见 第 7 题 . 相 合 与 否 取 决 于 中 位 数 是 否 唯 一 . 若 响 
一 则 相合 ， 否 则 不 相合 ( 考 处 样本 大 小 为 奇数 时 的 情况 〉 .而 且 ， 
如 果 中 位 数 不 唯 一 ， 若 以 Wo 记 天 和， …， 天 的 样本 中 位 数 ， 序 
列 {92n:4 二 1，2，…，} 也 不 是 对称 中 心 的 相合 估计 .请 证 明之 ， 

2-16 ”此 是 下 面容 易 证 明 的 结果 的 推论 ， 设 有 三 蚜 随 机 变量 
{em:n = 1, 2, :}, f=1, 2, 3, En 和 Em 所 En 对 一 切 #. 车 
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二 和 Eu 泊 2>co 时 都 依 分 布 收敛 于 同一 分 布 二 ， 则 5 也 依 
分 布 收 僵 于 下 ， 先 证 明 这 一 事实 。 从 表达 式 (2:16 ) 定 出 以 上 三 
串 随 机 变量 ， 再 利用 定理 2.2. 

2-21 了 工 , 非 完全 可 证 明 如 下 ,定义 g (TT》=J(X.&1) 一 
TC《X,<1). 则 Erg (了 T) )=0, 对 任何 FEZ. 但 9 (TT) 并 
不 以 概率 1 为 0， 其 余 容易 。 

2-22 充分 性 证 明 与 定理 2.6 同 . 完全 往 可 通过 取 T(Y, 翅 1) 
一 了 (2Z,<1)、 按 上 题 方法 证 明之 。 

2-23 记 了 一 CX)s sn) ) 。 当 WH 之 3 时 ， 取 
CT) 一 元 时 二 和 ou ， 证 明 Eg, (TT) = 4 与 9 1,，0; 无 关 ， 

(1) 


tm 
然后 取 9 (Tg (7 ) 一 4 . 当 %=2 时， 为 证 (1s 不 (3)) 
完全 ， 只 须 证 明 ，。 关 g(x+，y) 定义 于 {x 之 y} 上 ， 且 

g CX, y) dxady 一 0， 对 一 切 8 1 之 ba， 


61 <r<y cp 
划 g (XxX，》) 在 集合 {Xx 之 y} 上 为 9. 
为 证 后 者 , 只 须 证 明 ; 车 A={(xX，y) 
:之 X42 和 本 之 7 之 51}， 此 处 
-co<a< icoy -co<a< Lo 


4c{x<y, 则 有 | 9(X， y) drady 
起 


一 0. 为 证 此 ， 先 考 虚 图 一 的 情况 ， 
这 相当 于 4. 的 情况 ,这 时 矩形 4 
.等 于 图 中 那个 大 三 角形 减 去 两 个 小 三 
角形 工 积 开 .因由 假定 ，9 在 这 三 个 
三 角形 上 的 积分 缘 为 0 ， 故 


用 g cm ，) dxdy=0， 一 般 情况 如 


必 二 ， 其 中 4 等 于 两 个 矩形 之 差 , 这 
。320 。 


两 个 矩形 都 局 于 前 一 情况 。 
第 三 章 

3-1 (4) 如果 最 小 方差 无 偏 估 计 § 存 在 ， 则 因 于 也 是 无 偏 估 
计 ， 对 一 切 对 称 分 布下 应 有 Vars ( 于 ) Vary (6). 特别 ， 因 正 
态 分 布 为 对 称 分 布 ， 上 式 对 一 切 正 态 分 在 成 立 ， 由 此 将 准 出 ， 
是 正 态 分 布 期 望 上 的 最 小 方差 无 偏 什 计 。 但 在 估计 理论 中 已 证 
明 : 的 最 小 方差 无 偏 信 计 为 旦 是 叭 一， 这 证 明 6 必须 是 受 . 但 
专 并 非 最 小 方差 无 偏 估 计 ， 因 为 著 以 mw, 记 样 本 中 位 数 ， 则 ms 也 
是 无 偏 信 计 ， 而 对 某 些 对 称 分 布 矿 《 试 举 一 例 ) ， 知 的 方差 小 
于 万 的 方差。 

(b) 问题 出 在 对 所 说 的 分 布 族 而 言 ， 次 序 统计 量 (Xa， 
…， 必 o ) 一 了 并 非 完全 的 。 此 可 由 当 分 布 对 称 时 ， 有 愉 cw 一 


在 (1 ,ne 用 第 二 章 22 题 的 方法 证 明之 . 
3-2 如 方差 的 级 为 1 则 存 相 g(x,), 使 Var( 下 ) = 
上 rn(g (三 ,) )、 特别 ， 对 下 为 (0，9) 区 闻 均 名 分 布 成 立 ，9>0。 


于 是 有 地] 9 (zx ) dx 一 点 95， 对 一 切 6 >0。 由 此 向 


fg cry dr=t0°, g (0)=10, 0>0. 
但 对 这 样 的 9， 车 分 布 已 到 9 和 10 的 概率 都 是 十， 将 不 满足 
var (FF) 一 达 rp(9《 人 和) )， 于 是 知 这 种 g 不 存在 。 

3-3(C) 设 革 ,YY 独立 同 分 布 有 公共 分 布 下， 则 有 
.Far =PX <Y) ( 按 右 连续 ) 。 因 XX 二 Y， 有 


l=P (XA<Y}+-P(X YY) +P(AXA=Y) 
~2P(X<Y) P(X=Y) (») 
此 因 P(X<Y 了 一 P(XO>Y ) .由 第 一 式 ， 知 
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P(X<Y)=P(XZY)+P (X=Y) 之 地 
等 号 仅 当 已 (天 =: 了 ) 0 成立， 而 后 一 事实 当 且 仅 当 下 处 处 连 
续 才 对 (请 证 明 》 .由 《* ) 的 第 二 式 ， 及 下 左 连续 时 
[Fo adFin= P(X<Y), 知 | F(x)dF(x)<< 二 ,等 导 当 
县 仅 当 卫 ( X= 站) 二 0 时 成 立 。 


(b) [jeer,») dF(x,y) 介 于 0 与 二 之 间 可 由 此 积分 等 


于 PX, 安 针 ,， 了 <Y,)， 用 上 题 方 法 去 证 明 。 此 处 (人 X,，Y 1)， 
《这 >, 了,) 独 立 同 分布 ， 有 公共 分 布 R(x，y)， 此 积分 之 值 可 为 
[0， 二 ] 之 间 任 何 数 的 断言 ， 可 通过 到 环 为 一 些 具体 分 布 去 证 
明 。 例如， 取 图 一 的 多 边 形 1 上 的 均匀 分 布 为 下 (I 为 单位 正方 


D 
了 C 
及 
A D B 
O E 下 E 
贸 三 加 四 


形 的 一 部 分 ， 旦 QA= BC 一 CD=0E=a)， 邻 0A ca 在 50， 
1 内 变化 〈《 当 & 一 0 时 ,玉成 为 对 角 线 QC 上 的 均匀 分 布 )， 可 得 


上 述 积分 在 [地 ， 地 ] 内 任何 信 ， 用 图 二 中 的 多 边 形 互 上 的 均匀 分 
布 为 矿 ( 结 构 与 图 一 相似 )， 可 得 上 述 积分 在 [9， 地 ] 内 任何 值 ， 

(Cc) 记 G(CXx) =lim F (y), 即 玉 在 ss 点 的 左 极 有限。 因 
P(X<Y) -EIP(X<YIY)}=| Gx) dF (x 0) 
| G(x40)dF(x). 故 
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POX<Y 7 -| Fx) dF x) 和 
={ Gx+0) -Fx) dF : 
:分 两 种 情况 ，1. 有 一 个 跳 聊 点 4 ， 其 咬 度 p>0. 则 
[CrGe#+0) -F(x)IdFs) 
CG(a+D ~ FalFa D>pp=17>0 
才 P(XALY)2p 二 | _FCodF(zD) > 地 > 六 2. 所 处 处 


连续 。 这 时 G(x)=(x). 存在 点 4 ， 便 当 & >>@ 时 总 有 
F(x) 六 Fe) 这 时 取 8>0 充分 小 有 


上 EGUF OI FOR 


>| [FOr+0) — Fx) AF Cx), 
基 下 (4+0) 一 F(a)>0 而 下 连续 ， 故 当 8>0 充分 小 时 ， 有 
b=inf{F (x+ -Fr :acxeate} 0, KF(ate) >F(a)? 
{RG+0) FwdPs) SbF (ats) F(a)]>0, 
其 余 与 情况 1 一样。 z 
3-8 将 题 中 人 丈 ) 积 分 号 下 的 平方 展开 得 三 项 。 第 一 项 为 
上 [FS F(AF Cs) dR) 
-=| 上 a-2*Q 一 ?dxdy= 二 ,不 须 估计 .第 二 项 为 


-27= -2 {FYB BCs+ taF (sat) 


-和 证明。 车 全 ,，…， 叉 ~， 则 
J=P (XX + Xs, Ke>K,, Xs>X,) 


: ;三 项 为 | | F (stty at sy art) =P(X, SX 


天 ,> 和 二 瑟 ,) 。 利 用 这 些 事实 ， 不 难 找 到 一 一 个 核 作为 右 ( 刁 ? 的 : 
无 偏 估计 《 依赖 大 2 六 7 上 记 此 通过 作 乙 统计 Ei 

3-6 前 - - 问 简单 .后 间 可 通过 取 具 体 分 布 去 算 ， 例 如 第 三 
章 习 题 提示 3(2) 中 之 分 布 。 

3-7 ”问题 在 于 找 出 6 《下 》 的 一 个 无 偏 估计 ,以 (六 ,，Y 1)， 
《及 ,， 了 了; ，… 记 从 下 中 抽 只 的 简单 样本 , 先 证 明 

[Je ydFCr, ») 


(A 及 :雪上 Y,<Y,, Y,.<Y,) 全 


人 ceo yO Fr) Fv dF (x, y) 


=P(X EN VEY SX, YT, ), 
站 


一 天 人 方志 六 。， 及 :< 人 了 < 雪耻 6 YY ), 
以 此 为 基础 即 可 椅 著 出 8( 下 ) 之 无 篇 估计 ,再 作成 UV 统计 量 即 可 。 


第 意 
4-1 以 下 记 下 的 分 布 , 关 1 一 1 则 当 到 ,一 4 时 ， 为 使 
广 ， 的 秩 惟一 有 :必须 在 全 2 “ 到， 中 ， 有 kk 一 1 个 小 于 %， 荔 
红 一 1 一 此 个 大 于 2 . ee PFOx); 上 一下) 
于 是 
E (RX,=%)= Sbn—1, FCOx); k—1) 
= iba—i,Fr)s D+Ebn—l, Fer), iy 
$= 站 i=U 
= (nl1)F(xY+1. 
洲 1 天 1， 则 情况 较 货 杂 ， 瀛 加 条 件 六 ,=:y， 当 y 达 4 时 有 
PCOR=EIX= ss, X=y)= 8b(n-2, FC(y);: hk-1> 
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者 y>>xr， 则 有 

POR=EIX,= 2, X=) =b (nn-2, Fay); k—2) 
于 是 i 

PORkIX= 2 ) | bo-2, FOy)s hk-DdF yy 


+ {bn—2, FCOy); Rk-—2dF (Cy) 
由 此 可 得 
ECR|X=2) =[ a+ (rn—2)F(y) dF Cy) 
+| (an—2)F(y) (dF (y) 
=—2—F(x) + Cn-2) 一 上 +1- 人 (Cn). 
4-2 先 算 忆 (只 一 AN 一 2 )， 欲 在 全 =X, 的 条 件 下 大 


及 -2 党 须 三 样本 中 抢 有 个 < ， 了 样本 中 恰 有 了 个 < 
i+j 一 一 1， 由 此 易 得 


和 上 J 一 下 (2 DO 
CX) TIGR Nt 
再 弛 以 arF Ct) 对于 从 0 到 < 以 分 即 得 Pl f=k) 
4-4(2) 工 的 皮 从 只 有 4 个 不 同 的 值 


FS E 十 SE a 
> er si 


各 有 概 闪 二 《事实 上 ，di 就 是 当 RR,=j 蛙 ，L, 的 取 值 ， 而 


PCR= 让 = 二 ). 由 此 易 算出 ，( ,一 1n)/on 收 敏 于 均匀 分布 


呈 ( -M3，M 3), 此 人 钢 渐 近 正 态 性 失效 的 原因 是 (Cs,… ,Cen 》 
不 满足 条 件 N. 


(b〉 此 例 Ls 取 值 在 0 DS Sa 2e"+0? 之 闻 ， 现 
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.02 >> 虐 。 ee 本 8{ 工 2eoe2) )> 11pgotya, 
1 n 六 44 


故 | 各 二 全 | <g， 因 此 (Z, 一 /ov 不 可 能 依 分 布 收敛 于 NC0,1)。 
-此 例 渐 近 正 态 性 失效 是 因为 9 存 《0，1 ) 不 是 平方 可 积 的 ， 
4~5 计算 由 zz) 一 (于 7) 及 a(i) =ECUw) 


(Uy 所 Uw 是 尺 (0，1) 的 次 序 样本 ) 这 琴 个 计 分 泪 数 所 
产生 的 标准 化 线性 秩 统 计量 之 差 ， 证 明 它 依 概率 收敛 于 0 即 可 、 
4-6 ”此 概率 了 (有 所 ) 等 于 以 下 四 仿 互 斥 事件 的 概率 之 和 ， 
-4 一 区 0 三 中 有 一 个 为 0， 其 他 皆 不 为 0， 1}. 
.人 一 {XX,， “a 六 ， 中 有 一 个 为 1, 其 他 和 皆 不 为 0， 1}. 
4 一 人 中 有 一 个 为 0， 一 个 为 1， 其 他 洗 不 为 0,1}. 
.4 一 {X，…， 瑟 。 崩 不 为 0，1). 


17 POE (NT) (2) im2. PE=o= 人 (人 


+ (条 儿 和 ) .由 此 算得 到 (€) = 和 (1-(3) ). 


4-3 ”前 一 问 简单 ,后 一 癌 的 证 法 与 第 5 题 相 似 . 此 题 (C，， 
“ys Csn ) 本 为 C0, pg9 0, 1, *, 1) (Cn, 人 0，jx 个 1) ,天 作 
线性 变换 不 影响 标准 化 线性 秩 统计 量 之 值 ， 不 妨 5 《Co …， 
Cm ) 取 为 ( -元 ， ?og Sa Es “yy 1)(m 个 -， 722 个 站). 


M1 ”2 


注意 这 时 可 为 0. Mood 统计 量 和 收 改 后 的 统计 量 分 别 相应 于 . 
ai Do 去 ) CMood 统计 量 ) 


72 二 1T 


2 (让 一 (二 -十 ) 《修改 后 统计 量 ) 


出 它们 作成 的 线性 秩 统 计量 分别 记 为 工 和 5,. 有 ECI,) 二 
ECL) =0, HVar( sn) =— i .$a (i) 6) 


~ 1 NN 


* 326 * 


A ,A 因为 由 定 积分 定义 和 有 


了 2 一 工 和 1 了 2 i=1 


lim Bas C7) 一 一 jamn Si ) 一 可 2 
到 | rh 


2 名! > 1 E28 
知 0% >1， 且 9>2007 和 -， 当 # 完 分 大 , 故 只 须 证 


£0, 关 、N (0，1) 即 可 .注音 到 
tt( 二) 1 


Nn 2 n \n+l 2/ 38 

易 得 
| 工 ， 一 一 之 | 

| ER | G5- 十)|+ 直 
玉宇 ( Hi 他 71 2 4n* 


由 于 Ln/o% WN, 1)《 定理 4:4)， 知 


S30 R, -二 )/ = py Pp _ 
天 nti 于 0 


Dt 2 一 立 ) 为 两 样本 Wilcoxon 秩 和 统计 是， 因此 处 有 


127 ,7 1 
Hi>o0, Hr> oo0, 有 /二 Hn a (a -3) oN 《0， 1)。 


由 此 及 0g > 工 六 ， 即 知 


300 ,7 
8 二 1 > ( kh, -到 | / P , 
Br | (Tt 3 ) 9- 一 >0， 当 ?一 so 《2) 
又 
Ss 十 /os<w360Vems 1 L200/n— 30, (3). 


由 (1)、(2》、(3)， 知 | 一 1/0, 了 0， 故 工 /ou 与 己 jo 有 同 
一 之 极限 分 布 , 因 后 者 有 极限 分 布 W(0,1)， 故 疡 ,/o。 了 ,NC0,1) 
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4-11 注意 事件 { 玫 一 8 是 以 下 三 个 互 斥 束 侍 之 并 

.4 一 47 ， 六 中 有 一 个 秩 为 5， 另 一 个 为 3， 且 及 :Aa) 及 sh 
中 没有 与 了 ,，Y, 相同 的 }， 

.由 : = {了 了,，Y; 中 有 一 个 秩 为 5， 和 猎 下 一 个 与 义 ,, 让 ;, 文中 
的 两 个 相同 。 还 剩 下 一 个 信 样本 比 上 述 样 本 都 小 } ‘ 例 
如 ， 让 之 下 二 二 了 < 是 一 个 可 能 情况 ) ， 

月 ,== 17， 7: 志 同 且 与 菜 一 个 X 样本 同 ， 剩 下 两 个 六 样本 
都 比 它们 小 六 例 如 ， :所 有 < 大 一 了 ,一 了 是 二 小 可 
能 情 襄 ) 。 

这 每 个 事件 的 概率 的 计算 都 不 难 ， 但 是 很 知 。 特别 是 总 体 分 布 有 


一 个 路 度 为 1/3 的 跳跃 点 却 ， 例 如 ， 书 〈 4 ) 的 计算 要 分 解 成 以 
下 5 个 部 分 ，(@) 了 或 了 ,为 计 ， 其 他 全 小 于 地 (5》 所 有 样本 
都 小 于 闻 《6) 了 ij， 区 中 有 一 个 大 于 二， 一 个 为 二 HG) 1， 


中 有 一 个 大 竹本， 一 个 小 于 地 (e) Ys Y, 都 大 于 二 .分 别 计算 


这 5 种 情况 的 概率 再 相 加 . 
4-12 ”把 平方 展开 逐 项 计算 .结果 为 扫 一 1， 与 X*%-| 的 戎 望 
相同 。 这 样 做 是 希望 统计 量 的 确切 分 布 与 其 极限 分 布 能 葛 接近 一 


地 


4-14 注意 到 『 了 nm 之 值 只 涉及 到 以 ( 汪 1，…， 闫 1, ) 为 一 
方 ， 以 《六 i， 上 ma 一 1，…， 了 一 1) 为 另 一 方 之 间 ， 每 一 
对 值 ( 各 方 出 一 个 》 的 大 小 比较 ， 因 此 ，《〈 了 了 … 下 im)》 只 
涉及 《六 i，…'， 及 :一 1 …，Y+ 一 1 的 香 内 部 大 小 比较 问 
题 ， 即 它 俯 的 排列 次 序 。 由 于 全 部 样本 为 iijd.， 这 个 内 部 排 鲁 次 
序 不 影响 以 其 整体 为 一 方 ， 腑 〔 必 -，…， 失 rw ) 为 另 一 方 的 值 
的 大 小 比较 。 由 此 就 维 出 Von 写 CV Vr》 独立 《也 不 
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因为 尺 (2 ) 一 六 :十 … 十 了， 右边 各 项 独立 ， 且 当下 全 ce 
时 ， 每 个 了 为 浙 近 正 态 ， 故 玉 (2 ) 也 为 渐 近 正 态 。 

4-17 上 易 见 ; 7 个 随机 向 量 ( 广 1， "yg Xn) :7 一 1， 9 P 
为 jid， 故 若 以 Rs 记 集 品 {Rs, “yg 下 wy j= 1, …， 和 则 无 
论 怎样 把 1，2，…，371411 分 成 NN 堆 Si,，…，5m， 每 堆 S; 和 包含 轴 
个 数 ， 则 PCR=Sy, j==1, "1 与 堆 的 分 法 无关 《 且 就 等 
于 把 ”zz 个 数 分 成 堆 ， 短 堆 有 区 个 数 的 不 同 分 法 的 倒 数 ， 即 
C4 "mp)1 》、 另 一 方面 ,对 固定 的 7，( 生 1， 乓 1 ) 为 * 可 
交换 的 "， 即 不 论 怎样 作 置 换 成 (jp，…y， 到 可 )， 分 布 不 变 , 由 . 
此 知 ， 在 已 知 Rj/ 一 Sj 的 条 件 下 ，23z! 种 可 能 排列 为 等 搬 率 的 这 . 
两 个 事实 结合 即 证 明了 所 要 的 结果 。 

4-21 及 有 四 和 妥 … 安 改 o 记 次 序 统计 是， 先 利用 分 布 函数 

与 经 验 邹 市 芒 数 的 厘 降 与 右 连 续 性 证 明 

sup _IF(X) —F.(7x) | 


=max{| F(X ) -+|, [F(X )— 二 :一 1，…y》 | 


弛 
再 利用 定理 2.1 即 得 . 


第 五 章 


5-1 必须 的 条 件 是 ， 当 原 假 设 成 立时 ， 全 部 样本 为 独立 同 
分 布 ， 或 至 少 为 “可 交换 的 "( 即 各 变量 作 置 换 不 影响 分 布 ; ， 而 
在 对 立 假设 下 则 没有 这 个 性 质 。 例 5.2 的 模型 1 为 独立 同 分 布 情 
况 , 而 模型 2 为 “可 交换 ”和 情况 ，“ 对 称 中 心 为 0” 的 检验 问题 
之 所 以 不 能 用 置换 检验 ， 是 因为 无 论 在 原 假 设 或 对 立 假设 之 下 ， 
样本 都 是 独立 同 分 布 。 


@ 注意 这 星 齐 的 是 集 而 非 向 量 ， 邮 不 计 其 中 元 素 的 次 序 ， 下 面 的 “ 埠 "S1。 …，. 
Se 也 邦 是 指 各 。RRr =Sj 雹 在 集合 相等 的 意义 下 去 理 租 。 
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5-2 下 面 是 可 考虑 的 检验 之 一 ， 以 扩 记 合 样本 中 位 数 ，: 
六 ; 一 XX, 一统 ， 访 = 了 ; 一般. 对 《Xi 办 到 at 1 了 ) 
苍 行 置换 ,并 取 统 计量 7 为 袜 | 了 9， 请 证 明 :在 原 假设 成 立 之 下 ， 
《六 1 ， 了 Yi，…， 了 ss ) 的 分 布 为 可 交换 的 ， 因 而 置换 
检验 可 用 。 又 解释 一 下 取 统 计量 了 的 理由 。 

5-3 用 归纳 法 证 本 题 ， 首 先 易 通 过 使 用 归纳 假设 ， 将 问 题 
转化 为 (二 2 的 情况 .因为 ， 若 1=2 时 已 证 ， 则 把 吾 号 结 
合 为 一 新 水 平 B1( 这 时 BB 有 两 个 水 平 Bi 和 B;) ， 将 得 出 : 在 
给 定 行列 和 的 条 件 下 ，《〔《 扰 和， 天 tr 》 之 条 件 分 布 与 {p， Qi} 
无 关 。 但 是 ， 在 给 定 行 列 和 的 条 件 下 再 给 定 反 1 "sg Kr 等 
于 在 &x (一 1) 列 联 表 中 给 定 行列 和 ， 技 归纳 假设 这 时 
{ 和 2 1， Rl, j=l, .1—2} 之 条 件 分 布 与 {p,， das} 
无 关 。 二 考 结 合 ， 即 推出 当 《&，!-1 ) 成 立时 对 (六 ,1》 也 成 立 ，。 
同 法 由 〔〈& 一 1，7) 排出 5& 7) ， 

就 1=2 的 情况 证 本 题 ， 青 一 次 使 用 归纳 法 ， 这 次 是 对 名 . 首 
先 注意 ， 当 ! 一 2 时 ,车 给 定 行列 和 , 刚 广 ,; 的 傈 件 分 布 与 {p,, gq:} 
无 关 。 此 因 车 把 4,，…，A; 结合 为 一 新 水 平 4; 则 加 到 人 饮 5:1 
已 处 理 过 的 情况 。 这 一 点 证 有 明 后 基 可 在 给 定 ,后 对 kk 施行 妇 
- 纳 法 ， 

此 法 说 理 繁 一 些 ， 但 不 需 任 何 计算 。 

A 
Hoo, 因 EE(L,) = =["]/n, ; 


ES 
dVar (Ln) ~ (ny, 


易 见 PC CL /0 A nl En’j/n) >1, 


而 以 2 一 10815]72 ->0， 以 此 知 ( 工 ,一 六 ) yo 不 可 能 依 分 布 收 效 
于 入 (0，1 》( 事实 上 ， 它 收敛 到 退化 于 一 点 0 的 分 布 ) 。 
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第 六 章 
6-9 使 用 8 题 可 知 lm sup IEf, C(x) -9g(%) | =0， 理 用 : 
反 证 法 ， 假 设 存在 ‰ 使 严 (x) 一 有 (2 如- ) >0. 往 证 存在 常 色 : 
cC 及 洛 使 Efs( xn) > 六 玉 (O)[F(xo) 一 (xo~)]， 导 致 巴 盾 。 
6-17 利用 以 下 事实 ， 设 驴 为 任 一 非 空 集合 ， 9 为 定义 


在 钳 上 的 两 个 实 函 数 ， 则 有 
lsupf Cx) supg (x) | <sup|lf (*) -gC%) | 
6-18 (1) 8* (x%)=E(Y |xX)= CE 


KR*=003/ (oz 二 az ) 


上 (CX—t)? 


(2) ra (KsXis "Xr ) - (a 
+ (1+ 3 )o03/ Cor+o3), | 
其 中 XX: 一 去 导 允 ， 
6-20 ”对 充分 大 的 & >0， 存在 与 4 无 美的 常数 c >0 使 
Pddx 一 X41>>a]jX=x) <c( 一 ”从 而 证 明 


{x —Xss n=1, 2，…} 是 一 致 可 积 ， 


和 


一 、 与 样本 有 关 的 
设 正 ,。-…， 基 ,为 自 一 具 分 布下 的 总 体 中 抽出 的 样本 。 车 
下 9 “yp .8 独立 同 分 布 《 有 时 简 记 为 iid. ) 且 有 公共 分 布 下 ， 
则 苹 ,，*…，。 芭 s 称 为 自 谈 总 体 或 分 布 玉 中 抽出 的 简单 样本 .有 时 
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:把 这 记 为 .0 a Xn~F. 

二 、 与 分 布 有 关 的 

分 布 函数 总 取 为 右 连续 的 ， 即 六 的 分 布 函数 定义 为 
了 (XX 志 42) .一 维 与 多 维 匡 态 分 布 如 常 记 为 MG， o2) 与 NGC，A)， 
维 数 略 去 不 计 - 《Ga 65) 区 痊 上 的 艾 义 分布 记 为 RC(a, .自由 
放 为 天 的 上 分 布 、 妇 分 布 ， 以 及 自 出 度 为 (9 272) 的 已 分 布 ， 
如 平常 分 别 记 为 丰 ， 各 与 Fmwn. 这 些 分 布 的 “上 a 分 位 点 ” 
(0O<a<1T) 分 别 记 为 加 (ea)， 和 Ca) 与 mm(a). 例如 ，tn( 4 ) 的 意 
义 是 ， 书 (加 六 如 (Ca )) 一 wx 标准 正 态 分 布 W (0，1) 的 上 a 分 位 
点 记 为 ks- 义 ，Y 同 分 布 记 为 六 二， 

三 、 与 数字 特征 有 关 的 

随机 变量 的 5 数学 ) 期 她 及 方差 分 别 记 为 姜 ( 开 ) 及 Var( 王 ) 
(括号 有 时 省 略 ) .两 个 随机 总 量 到 ,上 的 协 方差 记 为 Cov( 人 X,Y )。 
:随机 向 量 疏 的 协 方差 阵 沁 为 Cov( 和 天) 随 忆 变量 天 在 给 定 了 一 7 
的 条 凰 下 的 条 件 期 望 记 为 忆 (《 区 | 立 王 7)， 在 不 致 引 起 误会 时 也 
记 为 EC(XIy》。 这 样 ，E(CX | 了 ) 应 理解 为 ECX1y)]y.r。 

四 、 与 随机 变量 (上 襄 量 ) 及 分 布 的 收 艇 有 关 的 

一 点 队 视 变 车 {人 ,} 依 概率 或 以 概率 1 收 僵 于 一 随机 变量 六， 
分 别 记 为 六, 一 > 站 或 羡 , 一 > 着 , a.s.. 后 者 也 记 为 lim X= 


六，a.5.. 浩 琴 和 下 分 别 为 六 ,及 革 的 分 布 而 对 下 的 每 个 
连续 点 有 lim f(T) =:FCX)， 称 {和} 依 分 布 收敛 于 变量 及 
.或 分 布 五 ， 也 称 分 布 序列 {E 依 分 布 收 敏 于 下 或 天， 记 为 
等 等 ， 

五 、 与 线 代数 或 其 他 有 关 的 

汽 提 到 一 向 量 & 时 总 是 指 列 向 量 ，4 /为 下 的 转 置 ， 故 4 7 为 
行 向 晤 。 估 阵 用 一 个 字母 (《 例如 有 4) 记 . 吉 行 %9 列 的 和 矩阵， 其 
“1, 7) 元 为 2 涛 ， 有 上 时 记 为 (Gy ) im yi 向 晶 
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= 《ai，…，q.) /的 欧 氏 长 度 ， 即 ( 屋 o3) 7 ( 取 正 号 》, 记 为 


4 二 王 
4al. 单位 方 阵 记 为 了 . 集 ( 合 ) 4 中 所 售 元 素 个 数 记 为 六 (4)。 
梨 刀 的 指示 函数 ， 即 在 4 上 为 1 而 在 其 外 为 0 的 菠 数 , 记 为 
1(A). 
bn=0 (tn ) 和 6 二 《an ) 分 别 表 示 “lim 《加 /as ) 二 0” 及 


“fpayan:1 一 1，2， 为 有 界 序列 ”。 类 似 记号 也 用 于 连续 变量 
的 情况 。 

sup 和 inf 分 另 表 示 上 确 界 和 下 确 界 。 

其 他 偶尔 用 到 的 符号 与 名 词 术 语 ， 将 在 用 到 的 地 方 捐 明 其 意 
六 


7 重 333 全 


